Будинки Вперед мислення Гарячі фішки: машинне навчання займає центральне місце

Гарячі фішки: машинне навчання займає центральне місце

2024

Відео: Маша и Медведь (Masha and The Bear) - Подкидыш (23 Серия) (Листопад 2024)

Найгарячіша тема в обчислювальній роботі в наші дні - це машинне навчання, і це, безумовно, видно з боку обладнання. Останніми тижнями ми багато чули про нові мікросхеми, призначені для глибокого вивчення, від Tesla P100 та Drive PX 2 від Nvidia Processors Units до Intel Xeon Phi. Тож не дивно, що минулого тижня на конференції Hot Chips ми почули від декількох різних компаній з дуже різними підходами до дизайну, пристосованого до машинного навчання та обробки зору.

Мабуть, найбільшою новиною було розкриття Nvidia більш детальної інформації про її мікросхемі Parker, що використовується в його модулі Drive PX 2 для самостійного керування автомобілями та спрямована на глибоке вивчення автономних машин. Цей чіп використовує два вбудовані в ARM сумісні процесорні ядра Денвера, чотири ядра ARM Cortex-A57 і 256 тих, що Nvidia називає ядрами Pascal CUDA (graphics).

Nvidia сказала, що це її перший чіп, розроблений та оцінений для використання в автомобілях, з особливими характеристиками стійкості та розповів про його більш швидку швидкість та пам'ять, зазначивши, що ядро Денвера забезпечує значне поліпшення продуктивності на ват. Серед нових можливостей - віртуалізація за допомогою апаратних засобів, до 8 VMS для інтеграції функцій автомобіля, які традиційно виконуються на окремих комп'ютерах. В цілому компанія заявила, що модель Drive PX 2 може мати дві з цих мікросхем Parker і два дискретні графічні процесори з загальною продуктивністю 8 терафлопсів (подвійна точність) або 24 операції глибокого навчання (8-бітова або напівточна.) компанія включила показники порівняння порівняно з поточною мобільною обробкою за допомогою SpecInt_2000, відносно старого орієнтиру. Але продуктивність виглядає вражаючою, і нещодавно Volvo заявив, що використовуватиме її для тестування автономних транспортних засобів, починаючи з наступного року.

Звичайно, існує багато інших підходів.

Китайський стартап DeePhi обговорив платформу для нейронних мереж на базі FPGA з двома різними архітектурами, залежно від типу мережі. Арістотель розроблений для порівняно невеликих звивистих нейронних мереж і заснований на Xilinx Zynq 7000, тоді як Декарт призначений для більш великих періодичних нейронних мереж з використанням довготривалої короткочасної пам’яті (RNN-LSTM), заснованої на Kintex Ultrascale FPGA. DeePhi стверджує, що його компілятор та архітектура скорочують час розробки порівняно з більшістю використання FPGA, а також, що використання FPGA може забезпечити кращу продуктивність, ніж рішення Tegra K1 та K40 Nvidia.

Інший підхід полягає у використанні цифрового сигнального процесора або DSP, який, як правило, виконує певну функцію або крихітний набір функцій дуже швидко, використовуючи дуже мало енергії. Часто вони вбудовуються в інші, більш складні мікросхеми для прискорення певних функцій, таких як обробка зору. Ряд компаній, включаючи Movidius, CEVA та Cadence, ділилися своїми рішеннями на Hot Chips.

Movidius демонстрував своє базування на базі DSP, відоме як модуль обробки зору Myriad 2, і демонстрував його у безпілотнику DJI Phantom 4. Він також показав, як Myriad 2 перевершує GPU та глибоку нейронну мережу GoogLeNet, використовувані у конкурсі ImageNet 2014 року.

CEVA просувала свій CSPA-XM4 Vision DSP, спеціально налаштований на переробку зору та спрямований на автомобільний ринок, разом із його платформою CEVA Deep Neural Network 2, за якою, за її словами, може взяти все, що написано для рамок Caffe або TensorFlow, і оптимізувати її для роботи на його ДСП. Новий процесор повинен бути в SoCs наступного року.

Тим часом Cadence, що робить процесори зору сімейства Tensilica (які можна вбудовувати в інші продукти), обговорила його найновішу версію Vision P6, яка додала нові функції, такі як векторна підтримка з плаваючою комою та інші функції для конволюційних нейронних мереж . Перші продукти повинні вийти незабаром.

Microsoft розповіла про деталі обладнання для своєї гарнітури HoloLens, заявивши, що вона використовувала 14-нм процесор Intel Atom Cherry Trail під керуванням Windows 10 та спеціальний халографічний вузол голографічного процесора (HPU 1.0), виготовлений TSMC на 28-нм процесі. Сюди входить 24 ядра DSP Tensilica.

Мене особливо вразив один із слайдів Cadence, який показав відмінності в пропускній здатності та ефективності графічних процесорів, FPGA та різних типів DSP з точки зору операцій з множенням додавання, одного з ключових будівельних блоків нейронних мереж. Хоча, очевидно, самообслуговується (як і всі презентації постачальників), воно вказувало на те, як різні методи відрізняються за швидкістю та ефективністю (продуктивність на ват), не кажучи вже про вартість і простоту програмування. Тут існує маса рішень для різних підходів, і буде цікаво подивитися, як це хитається протягом наступних кількох років.