Зміст:
Відео: Щенячий патруль НОВЫЕ СЕРИИ игра мультик для детей про щенков Paw Patrol Детский летсплей #ММ (Листопад 2024)
На конференції SC16 Supercomputing цього місяця виділилися дві тенденції. Перша - поява останньої версії Xeon Phi (Knights Landing) від Intel та останньої Tesla Nvidia (P100, що базується на Паскалі) у списку Top500 найшвидших комп'ютерів у світі; обидві системи опинилися в топ-20. Друга - великий акцент на те, як виробники чіпів та систем беруть концепції із сучасних систем машинного навчання та застосовують їх до суперкомп'ютерів.
Що стосується поточної редакції списку Top500, яка оновлюється двічі на рік, верхня частина таблиці все ще надійно перебуває в руках комп'ютера Sunway TaihuLight з Національного центру суперкомп'ютерів Китаю в Усі та комп'ютера Tianhe-2 з Національного суперкомп'ютера Китаю Центр у Гуанчжоу, як це було з червневого шоу ISC16. Жоден інший комп’ютер не є близьким за своєю продуктивністю, а системи третього та четвертого рейтингу - все ще суперкомп'ютер "Титан" в Ок-Ріджі та система "Секвойя" у Лоуренса Лівермора - обидва забезпечують приблизно половину продуктивності "Тяньхе-2".
Перший з них базується на унікальному китайському процесорі, 1, 42 ГГц SW26010, який використовує 64-бітове ядро RISC. Він має неперевершені 10 649 600 ядер, що забезпечують 125, 4 петафлопс з теоретичною піковою пропускною здатністю та 93 петафлопсом максимальної вимірюваної продуктивності за показником Linpack, використовуючи 15, 4 мегават потужності. Слід зазначити, що, хоча ця машина перевершує діаграми у виконанні Linpack з величезною відривкою, вона не проходить так добре, як в інших тестах. Існують і інші орієнтири, такі як контрольний градієнт високої продуктивності (HPCG), де машини, як правило, бачать лише від 1 до 10 відсотків своїх теоретичних пікових показників, і де найвища система - у цьому випадку машина Riken K - все ще забезпечує менше ніж 1 петафлоп.
Але тести Linpack - це стандарт для розмови про високоефективні обчислення (HPC) та те, що використовується для створення списку Top500. Використовуючи тести Linpack, машина №2, Tianhe-2, була №1 на графіку за останні кілька років, і використовує прискорювачі Xeon E5 та старші Xeon Phi (Knights Corner). Це пропонує 54, 9 петафлопс з теоретичними піковими показниками та показники при 33, 8 петафлопсів у Лінпаку. Багато оглядачів вважають, що заборона експорту нових версій Xeon Phi (Knights Landing) привела китайців до створення власного процесора суперкомп'ютерів.
Knights Landing, формально Xeon Phi 7250, зіграв велику роль у нових системах у цьому списку, починаючи з суперкомп'ютера Cori в Національній лабораторії Лоуренса Берклі, який вийшов на п'яте місце, з піковими показниками 27, 8 петафлопса і розміреною продуктивністю 14 петафлопсів . Це система Cray XC40, яка використовує з'єднання Овна. Зауважте, що Knights Landing може виконувати роль основного процесора, 68 ядер на процесор доставляють 3 пікових терафлопа. (Intel перераховує іншу версію мікросхеми з 72 ядрами при 3, 46 терафлопса з піковими теоретичними показниками подвійної точності у своєму ціновому листі, але жодна з машин у цьому списку не використовує цю версію, можливо, тому, що вона цінніша і витрачає більше енергії.)
Раніше Xeon Phis міг працювати лише як прискорювачі в системах, якими керували традиційні процесори Xeon. На шостому місці опинилася система Oakforest-PACS спільного Центру високоефективних високоефективних комп'ютерів Японії, набравши 24, 9 пікових петафлопсів. Це побудовано Fujitsu, використовуючи Knights Landing та Intel Omni-Path. Лицарські посадки також використовуються в системі №12 (комп'ютер Марконі в італійській CINECA, побудований Lenovo і використовуючи Omni-Path) та системі № 33 (Камфора 2 в японському Кіотському університеті, побудована Креєм та з використанням Овна взаємозв’язок).
У новому списку також була представлена Nvidia. Система № 8, Piz Daint у Швейцарському національному центрі суперкомп'ютерів, була модернізована до Cray XC50 з Xeons та Nvidia Tesla P100, і тепер пропонує трохи менше 16 петафлопсів з теоретичними піковими показниками, і 9, 8 петафлопсів продуктивності Linpack - великий оновлення від 7, 8 пітафлопсів з піковими показниками та 6, 3 петафлопс роботи Linpack у попередній ітерації на основі Cray XC30 з прискорювачами Nvidia K20x.
Іншою системою, що базується на P100, був власний DGX Saturn V Nvidia, заснований на власних системах DGX-1 компанії та взаємозв'язку Infiniband, який увійшов під номером 28 у цьому списку. Зауважте, що Nvidia тепер продає як процесори, так і прилад DGX-1, який включає програмне забезпечення та вісім Tesla P100. Система DGX Saturn V, яку Nvidia використовує для внутрішніх досліджень на ІІ, налічує майже 4, 9 пікових петафлопсів та 3, 3 пеніфлопсів Linpack. Але те, що Nvidia вказує, це те, що він використовує лише 350 кіловат енергії, що робить його набагато енергоефективнішим. Як результат, ця система очолює список Green500 найбільш енергоефективних систем. Nvidia вказує, що це значно менше енергії, ніж система Camphor 2 на базі Xeon Phi, яка має схожі показники (майже 5, 5 пітафлопса і 3, 1 пеніфлопса Linpack).
Це цікаве порівняння: Nvidia демонструє кращу енергоефективність на графічних процесорах, а Intel демонструє більш звичну модель програмування. Я впевнений, що ми побачимо більше конкуренції в наступні роки, оскільки різні архітектури змагаються, щоб побачити, хто з них першим дістанеться до "обчислювальної техніки" чи чи замість цього прийде китайський домашній підхід. Наразі проект обчислювальних технологій Міністерства енергетики США очікує, що перші машини для екскавальних масштабів будуть встановлені у 2022 році та розпочнуть роботу наступного року.
Мені цікаво відзначити, що, незважаючи на акцент на таких багатоядерних прискорювачах, як рішення Nvidia Tesla та Intel Xeon Phi, лише 96 систем використовують такі прискорювачі (включаючи ті, які використовують Xeon Phi в поодинці); на відміну від 104 систем рік тому. Intel продовжує залишатися найбільшим постачальником мікросхем, зі своїми чіпами в 462 з 500 найпопулярніших систем, за якими йдуть процесори IBM Power у 22. Hewlett-Packard Enterprise створив 140 систем (у тому числі побудовані Silicon Graphics, які HPE придбав), Lenovo 92, і Cray 56.
Змагання з машинного навчання
Під час шоу або навколо нього було оприлюднено ряд повідомлень, більшість з яких стосувалося якоїсь форми штучного інтелекту або машинного навчання. Nvidia оголосила про партнерство з IBM щодо нового інструментарію програмного забезпечення для глибокого навчання під назвою IBM PowerAI, який запускає сервери IBM Power, використовуючи взаємозв’язок NVLink Nvidia.
Компанія AMD, яка займалася думкою як в HPC, так і в машинному навчанні, працює над тим, щоб це змінити. У цій області компанія зосередилась на власних графічних процесорах Radeon, висунула свої серверні графічні процесори FirePro S9300 x2 та оголосила про партнерство з Cloud Cloud Platform, щоб дозволити його використовувати через хмару. Але AMD не вклала стільки коштів у програмне забезпечення для програмування графічних процесорів, як наголошує на OpenCL над більш власницьким підходом Nvidia. На виставці AMD представила нову версію своєї Radeon Open Compute Platform (ROCm) та оголосила про плани підтримки своїх графічних процесорів у різнорідних обчислювальних сценаріях з декількома процесорами, включаючи майбутні процесори "zen" x86 x86, архітектури ARM, що починаються з Cavium's ThunderX та Процесори IBM Power 8.
На виставці Intel розповіла про нову версію свого поточного чіпа Xeon E5v4 (Broadwell), налаштовану на робочі навантаження з плаваючою комою, і про те, як вийде наступна версія на платформі Skylake наступного року. Але в пізніших подіях цього тижня Intel зробила серію анонсів, розроблених для розміщення своїх чіпів у просторі штучного інтелекту або машинного навчання. (Ось прийом ExtremeTech.) Багато з цього має наслідки для високоефективних обчислень, але здебільшого є окремими. Для початку, крім стандартних процесорів Xeon, компанія також просуває FPGA для того, щоб зробити більшу частину зараження в нейронних мережах. Це одна з основних причин, коли компанія нещодавно придбала Altera, і такі FPGA зараз використовуються такими компаніями, як Microsoft.
Але в центрі уваги на AI минулого тижня розглядалися деякі новіші фішки. По-перше, є Xeon Phi, де Intel вказала, що поточна версія Knights Landing буде доповнена в наступному році новою версією під назвою Knights Mill, спрямованій на ринок "глибокого навчання". Оголошено на IDF, це ще одна 14-нм версія, але з підтримкою розрахунків на півточності, які часто використовуються при навчанні нейронних мереж. Дійсно, однією з великих переваг нинішніх чіпів Nvidia у глибокому навчанні є їх підтримка обчислення з напівточністю та 8-бітові цілочисельні операції, які Nvidia часто називають "глибоким навчанням". Компанія Intel заявила, що Knights Mill забезпечить у чотири рази ефективнішу роботу Knights Landing для глибокого навчання. (Ця мікросхема ще планується слідувати пізніше 10-нм-версією під назвою Knights Hill, ймовірно, більше орієнтована на традиційний високоефективний ринок обчислень.)
Найцікавішим для наступного року є дизайн від Nervana, який нещодавно придбав Intel, який використовує масив обробних кластерів, призначених для виконання простих математичних операцій, підключених до пам'яті з високою пропускною здатністю (HBM). Першим в цій сім'ї буде Lake Crest, який був розроблений ще до того, як Intel придбала компанію та виготовила під час роботи 28 нм TSMC. Зважаючи на тестові версії в першій половині наступного року, Intel заявляє, що вона забезпечить більш високі показники обчислень, ніж GPU. Врешті-решт за ним піде Knights Crest, який якимось чином реалізує технологію Nervana поряд із Xeon, і деталі ще не оголошені.
"Ми очікуємо, що технології Nervana в наступні три роки призведуть до 100-кратного підвищення продуктивності для підготовки складних нейронних мереж, що дозволяє науковцям даних швидше вирішувати свої найбільші проблеми з ІІ", - написав генеральний директор Intel Брайан Крзаніч.
Нещодавно Intel також оголосила про плани придбання Movidius, завдяки чому мікросхеми на базі DSP особливо підходять для розширення комп’ютерного зору - знову ж таки для прийняття рішень на основі раніше навчених моделей.
Це складна і розвивається історія - звичайно, не така проста, як поштовх Nvidia до своїх графічних процесорів всюди. Але це ясно, як швидко починається машинне навчання, і багато різних способів, які компанії планують вирішити проблему, від графічних процесорів, таких як Nvidia та AMD, до багатьох основних процесорів x86, таких як Xeon Phi, до FPGA, до спеціалізованих продуктів для тренінгу, таких як Nervana та IBM TrueNorth, до користувальницьких DSP-подібних двигунів, таких як Tensor Processing Unit. Буде дуже цікаво подивитися, чи є на ринку місце для всіх цих підходів.