BTC$29880

ETH$3666

Шукати

Дослідники IBM представили аналоговий чіп для глибокого навчання

Революція в галузі штучного інтелекту, що триває і має на меті змінити спосіб життя та робочі місця, показала, що глибокі нейронні мережі (DNN) відіграють ключову роль, особливо з появою фундаментальних моделей та генеративного ШІ. Проте традиційні цифрові обчислювальні системи, на яких розміщуються ці моделі, обмежують їхню потенційну продуктивність та енергоефективність. Попри появу апаратного забезпечення для ШІ, у багатьох розробках пам’ять і обчислювальні блоки розділені. Це призводило до перетасовування даних і зниження ефективності.

IBM Research шукає інноваційні способи переосмислення обчислень ШІ, що призвело до появи концепції аналогових обчислень у пам’яті, або аналогового ШІ. Цей підхід черпає натхнення в нейронних мережах біологічного мозку, де сила синапсів керує зв’язком між нейронами. Аналоговий ШІ використовує нанорозмірні резистивні пристрої, такі як фазозмінна пам’ять (Phase-change memory, PCM), для зберігання синаптичних ваг у вигляді значень провідності. Пристрої PCM переходять між аморфним і кристалічним станами, кодуючи діапазон значень і забезпечуючи локальне зберігання вагових коефіцієнтів з енергонезалежністю.

Значний крок на шляху до втілення аналогового ШІ в реальність був зроблений дослідницькою групою IBM Research в нещодавній публікації в журналі Nature Electronics. Вони представили передовий чип аналогового ШІ на основі змішаних сигналів, пристосований для різних завдань DNN-висновку. Цей чіп був виготовлений у нанотехнологічному комплексі IBM в Олбані. Він має 64 аналогових обчислювальних ядра в пам’яті, кожне з яких містить масив синаптичних комірок розміром 256 на 256. Інтегровані компактні аналого-цифрові перетворювачі, що працюють у часі, забезпечують плавний перехід між аналоговою та цифровою областями. Крім того, цифрові процесори в кожному ядрі виконують основні функції активації нейронів та операції масштабування.

МАЛ. 1. Огляд мікросхеми проекту IBM HERMES. a, Знімок електронної автоматизації проектування та вставка, що показує мікрофотографію мікросхеми. На ній можна розпізнати контури 64 ядер, а також масив з 5,616 площадок. b, Схематичний огляд різних компонентів багатоядерної мікросхеми. c, Схематичний огляд одного обчислювального ядра в пам’яті на основі PCM. (1) Поперечний масив PCM, (2) блок програмування на основі ЦАП, (3) вхідний модулятор на основі ШІМ, (4) лівий і правий масиви АЦП, (5) локальний цифровий процесор (LDPU), (6) лівий і правий регістрові масиви АЦП, (7) лівий і правий блоки перетворення і масштабування АЦП, (8) функціональний блок активації, (9) контролер зв’язку. d, Структурна схема глобального цифрового процесора, який використовується для обробки даних, пов’язаних з LSTM. Входи і виходи з фрагмента GDPU подаються у 8-бітному форматі цілого числа зі знаком (INT8). За допомогою спеціальних блоків перетворення, позначених i2f та f2i, значення INT8 можуть бути перетворені у FP16 і навпаки. Крім того, перетворення на вході/виході можуть включати в себе шкалу на вентиль/вихід та операцію зсуву за допомогою блоків FMA. Входи з I, A, F і O BL мультиплексуються в часі, і один блок використовується для обчислення векторів активації вентилів. Сигмоїдна функція активації для воріт I, F і O обчислюється шляхом масштабування і зсуву виходу гіперболічної тангенціальної функції третім (зверху) блоком FMA відповідно до тотожності sigmoid(x) = 1/2+1/2 – tanh(x/2).

Архітектура чіпа дозволяє кожному ядру виконувати обчислення, пов’язані з шаром DNN. Синаптичні ваги кодуються як аналогові значення провідності в пристроях PCM. Глобальний блок цифрової обробки знаходиться в центрі чіпа, керуючи складними операціями, що мають вирішальне значення для конкретного виконання нейронної мережі. Цифрові комунікаційні шляхи чіпа з’єднують усі плитки та центральний блок цифрової обробки.

З точки зору продуктивності, чіп продемонстрував дивовижну точність 92,81% на наборі даних зображень CIFAR-10. Це є визначним досягненням в аналогових обчисленнях в пам’яті. У дослідженні аналогові обчислення в пам’яті були легко інтегровані з цифровими процесорами та цифровою комунікаційною мережею. Це дозволило створити більш ефективну обчислювальну платформу. Пропускна здатність мікросхеми на одиницю площі для гігаоперацій в секунду (GOPS) перевершила попередні обчислювальні мікросхеми на основі резистивної пам’яті більш ніж у 15 разів, зберігаючи при цьому енергоефективність.

Використовуючи прориви в аналого-цифрових перетворювачах, можливостях обчислень з множенням-акумуляцією та цифрових обчислювальних блоках, IBM Research досягла багатьох ключових компонентів, необхідних для швидкого та малопотужного чипа прискорювача аналогового виведення ШІ. Раніше запропонована архітектура прискорювача поєднувала численні аналогові обчислювальні плитки в пам’яті зі спеціалізованими цифровими обчислювальними ядрами, з’єднаними через паралельну 2D-сітку. Очікується, що таке бачення та апаратно-орієнтовані методи навчання забезпечать програмно-еквівалентну точність нейронних мереж у різних моделях в осяжному майбутньому.