Будинки Вперед мислення Google хмара tpus є частиною тенденції до ai-конкретних процесорів

Google хмара tpus є частиною тенденції до ai-конкретних процесорів

2024

Відео: Cloud OnAir: Google Cloud Networking 101 (Вересень 2024)

В останні кілька тижнів відбулася низка важливих представлень нових обчислювальних платформ, розроблених спеціально для роботи в глибоких нейронних мережах для машинного навчання, включаючи нові "хмарні TPU" від Google та новий дизайн Volta Nvidia.

Для мене це найцікавіша тенденція в архітектурі комп'ютерів - навіть більше, ніж AMD і тепер Intel представляє 16-ядерні та 18-ядерні процесори. Звичайно, є й інші альтернативні підходи, але Nvidia та Google заслужено отримують багато уваги за своїми унікальними підходами.

У системі Google I / O я бачив, як це вводить "хмарний TPU" (для блоку обробки тензорів, вказуючи на те, що він оптимізований під рамки машинного навчання Google TensorFlow). TPU попереднього покоління, представлений на минулорічному шоу, являє собою ASIC, розроблений головним чином для зараження - виконання операцій машинного навчання - але нова версія призначена для посилення та навчання таких алгоритмів.

У нещодавньому документі Google надав більше подробиць про оригінальний ТПУ, в якому описував, що містить матрицю з 256-на-256 одиниць множинного накопичення (MAC) (усього 65536) з максимальною продуктивністю 92 тераопів (трильйон операцій на кожен другий). Він отримує свої вказівки від центрального процесора через шину PCIe Gen 3. Google заявив, що це 28-нм штамп, що менше половини розміру процесора Intel Haswell Xeon 22nm, і що він перевершив цей процесор і 28-нм-процесор K80 Nvidia.

Нова версія, що отримала назву TPU 2.0 або хмарний TPU (див. Вище), насправді містить чотири процесори на платі, і Google заявив, що кожна плата здатна досягти 180 терафлопсів (180 трильйонів операцій з плаваючою комою в секунду). Не менш важливо, що плати розроблені для спільної роботи, використовуючи користувальницьку швидкісну мережу, тому вони виступають як єдине машинне навчання суперкомп'ютерів, яке Google називає "струк" TPU ".

Цей стручок TPU містить 64 TPU другого покоління і забезпечує до 11, 5 петафлопсів для прискорення навчання єдиної великої моделі машинного навчання. На конференції Фей Фей Лі, який очолює дослідження AI Google, заявив, що, хоча одна з широкомасштабних моделей навчання для перекладу займає цілий день для навчання 32 найкращих наявних у продажу графічних процесорів, тепер вона може навчатись для однакова точність у другій половині дня, використовуючи одну восьму стручку TPU. Це великий стрибок.

Зрозумійте, що це не малі системи - Pod виглядає як розмір чотирьох звичайних обчислювальних стелажів.

І кожен з окремих процесорів, здається, має дуже великі тепловідводи, це означає, що плати не можуть укладатися занадто щільно. Google ще не представив багато деталей щодо того, що змінилося в цій версії процесорів або взаємозв'язку, але, ймовірно, це також базується на 8-бітних МАСах.

За тиждень до цього Nvidia представила свій останній запис у цій категорії, масивний чіп, відомий як Telsa V100 Volta, який описав як перший процесор з цією новою архітектурою Volta, розроблений для високоякісних GPU.

Nvidia заявила, що новий чіп здатний до 120 тентофлопів TensorFlow (або 15 32-розрядних TFLOPS або 7, 5 64-бітних.) Для цього використовується нова архітектура, що включає 80 потокових багатопроцесорів (SM), кожен з яких включає вісім нових "тензорних ядер" і являє собою масив 4x4x4, здатний виконувати 64 операції FMA (Fused Multiply-Add) за такт. Nvidia заявила, що запропонує чіп на своїх робочих станціях DGX-1V з 8 платами V100 в третьому кварталі, після попередньої DGX-1 фірми, яка використовувала попередню архітектуру P100.

Компанія заявила, що ця коробка на 149 000 доларів повинна забезпечити 960 терафлопів тренувальних показників, використовуючи 3200 Вт. Пізніше, перший сказав, він поставить персональну станцію DGX з чотирма V100, а в четвертому кварталі він заявив, що великі постачальники серверів доставлять сервери V100.

Цей чіп вперше оголосив про використання 12-нм процесора TSMC, і це буде величезна мікросхема з 21, 1 млрд транзисторів на 815 квадратних міліметрах. Nvidia назвала Microsoft і Amazon як ранніх клієнтів для мікросхема.

Зауважте, великі відмінності між цими підходами. Google TPU - це дійсно спеціальні мікросхеми, розроблені для додатків TensorFlow, тоді як Nvidia V100 - дещо більш загальний чіп, здатний до різних видів математики для інших програм.

Тим часом, інші великі хмарні постачальники розглядають альтернативи: Microsoft використовує обидва графічні процесори для навчання та програмовані на місцях масиви воріт (FPGA) для залучення та пропонування обом клієнтам. Веб-сервіси Amazon тепер надають розробникам і екземпляри GPU, і FPGA. І Intel підштовхує FPGA та безліч інших методик. Тим часом, ряд нових стартапів працюють над альтернативними підходами.

У чомусь це найбільш драматична зміна, яку ми спостерігали в робочих станціях та серверних процесорах за роки, принаймні з тих пір, як розробники вперше почали використовувати "GPU compute" кілька років тому. Буде захоплююче подивитися, як це розвивається.