21.08.2023 08:51

Моделі штучного інтелекту потужні, але чи є вони біологічно правдоподібними?

Близько шести років тому вчені відкрили новий тип більш потужної нейромережевої моделі, відомої як трансформер. Такі моделі можуть досягати безпрецедентної продуктивності, наприклад, генеруючи текст з підказок з точністю, близькою до людської. Трансформери лежать в основі таких систем штучного інтелекту, як, наприклад, ChatGPT і Bard. Незважаючи на неймовірну ефективність, трансформери також є загадковими: на відміну від інших моделей нейронних мереж, заснованих на роботі мозку, не було зрозуміло, як побудувати їх з використанням біологічних компонентів.

Тепер дослідники з Массачусетського технологічного інституту, лабораторії штучного інтелекту MIT-IBM Watson AI Lab та Гарвардської медичної школи висунули гіпотезу, яка може пояснити, як можна побудувати трансформер, використовуючи біологічні елементи мозку. Вони припускають, що біологічна мережа, яка складається з нейронів та інших клітин мозку, що називаються астроцитами, може виконувати ті ж самі основні обчислення, що й трансформер.

Нещодавні дослідження показали, що астроцити, не нейронні клітини, яких багато в мозку, взаємодіють з нейронами і відіграють певну роль у деяких фізіологічних процесах, наприклад, у регулюванні кровотоку. Але вченим досі бракує чіткого розуміння того, що ці клітини роблять з точки зору обчислень.

У новому дослідженні, опублікованому цього тижня у відкритому доступі в журналі Proceedings of the National Academy of Sciences, вчені вивчили роль астроцитів у мозку з точки зору обчислень і розробили математичну модель, яка показує, як їх можна використовувати разом з нейронами для побудови біологічно правдоподібного трансформера.

Їхня гіпотеза дає уявлення, які можуть дати поштовх майбутнім нейронауковим дослідженням того, як працює людський мозок. Водночас вона може допомогти дослідникам машинного навчання пояснити, чому трансформери так успішно справляються з різноманітними складними завданнями.

«Мозок набагато перевершує навіть найкращі штучні нейронні мережі, які ми розробили, але ми не знаємо, як саме працює мозок. Існує наукова цінність у роздумах про зв’язки між біологічним обладнанням та великими мережами штучного інтелекту. Це неврологія для ШІ і ШІ для неврології», — говорить Дмитро Кротов, науковий співробітник лабораторії штучного інтелекту MIT-IBM Watson AI Lab і старший автор наукової статті.

Разом з Кротовим над статтею працюють провідний автор Лео Козачков, постдок у відділі мозку та когнітивних наук Массачусетського технологічного інституту, та Ксенія Кастаненка, доцент нейробіології Гарвардської медичної школи та асистент дослідника в Массачусетському загальному науково-дослідному інституті.

Біологічна неможливість стає правдоподібною

Трансформери працюють інакше, ніж інші моделі нейронних мереж. Наприклад, рекурентна нейронна мережа, навчена обробляти природну мову, порівнює кожне слово в реченні з внутрішнім станом, визначеним попередніми словами. Трансформер, з іншого боку, порівнює всі слова в реченні одночасно, щоб згенерувати прогноз — процес, який називається самоуважністю.

Кротов пояснює, що для роботи самоуваги трансформер повинен тримати всі слова напоготові в якійсь формі пам’яті, але це здавалося біологічно неможливим через те, як спілкуються нейрони.

Однак кілька років тому вчені, які вивчали дещо інший тип моделі машинного навчання (відомий як щільна асоціативна пам’ять). Вони зрозуміли, що цей механізм самоуваги може відбуватися в мозку, але лише за наявності зв’язку між щонайменше трьома нейронами.

«Число три мені дуже сподобалося, тому що в нейронауці відомо, що ці клітини, які називаються астроцитами, але не є нейронами, утворюють тристоронні зв’язки з нейронами, так звані тристоронні синапси, — розповідає Козачков.

Коли два нейрони спілкуються, пресинаптичний нейрон посилає хімічні речовини, які називаються нейромедіаторами, через синапс, який з’єднує його з постсинаптичним нейроном. Іноді до зв’язку також підключається астроцит — він обертає довге тонке щупальце навколо синапсу, створюючи трипартичний (тричастинний) синапс. Один астроцит може утворювати мільйони такиїх трикомпонентних синапсів.

(А) Високорівневий огляд запропонованої спільноти нейронів та астроцитів. Блок трансформерів апроксимується спільнотою прямого зв’язку з блоком астроцитів, який охоплює синапси між прихованим і кінцевим шарами (матриця H). Інформація послідовно надходить до спільноти. (B) Протягом всієї секції запису ваги між нейронами оновлюються з використанням правила навчання Хеббіана. Ваги між нейронами та астроцитами оновлюються з використанням правила пресинаптичної пластичності. Протягом всієї секції навчання інформація пересилається спільнотою, а астроцит модулює синаптичні ваги H. Джерело: Proceedings of the Nationwide Academy of Sciences (2023). DOI: 10.1073/pnas.2219150120

Астроцит збирає деякі нейромедіатори, які проходять через синаптичне з’єднання. У певний момент астроцит може послати сигнал назад до нейронів. Оскільки астроцити працюють у набагато довшому часовому діапазоні, ніж нейрони — вони створюють сигнали, повільно підвищуючи рівень кальцію. Потім знижуючи його — ці клітини можуть утримувати та інтегрувати інформацію, що надходить до них від нейронів. Таким чином, астроцити можуть утворювати своєрідний буфер пам’яті, каже Кротов.

«Якщо подумати про це з такої точки зору, то астроцити є надзвичайно природними для обчислень, необхідних для виконання операцій уваги всередині трансформерів», — додає він.

Побудова нейронно-астроцитарної мережі

Отримавши це розуміння, дослідники сформулювали гіпотезу про те, що астроцити можуть відігравати певну роль в обчисленнях трансформерів. Потім вони вирішили побудувати математичну модель нейронно-астроцитарної мережі, яка працювала б як трансформер.

Вони взяли основні математичні принципи роботи трансформера і розробили прості біофізичні моделі того, що роблять астроцити і нейрони, коли вони спілкуються в мозку, на основі глибокого вивчення літератури та рекомендацій колег-нейробіологів.

Потім вони певним чином комбінували моделі, поки не отримали рівняння нейронно-астроцитарної мережі, що описує самоуважність трансформера.

«Іноді ми виявляли, що певні речі, які ми хотіли, щоб були правдивими, не можуть бути правдоподібно реалізовані. Тож нам доводилося вигадувати обхідні шляхи. У роботі є речі, які є дуже ретельним наближенням архітектури трансформера, щоб мати можливість відповідати їй біологічно правдоподібним чином», — говорить Козачков.

За допомогою свого аналізу дослідники показали, що їхня біофізична мережа нейронів і астроцитів теоретично відповідає трансформеру. Крім того, вони провели чисельне моделювання, подаючи зображення і абзаци тексту на моделі трансформера і порівнюючи відповіді з відповідями змодельованої ними нейронно-астроцитарної мережі. Обидві моделі реагували на підказки однаково, що підтверджує їхню теоретичну модель.

Наступним кроком дослідників є перехід від теорії до практики. Вони сподіваються порівняти передбачення моделі з тими, що спостерігалися в біологічних експериментах, і використати ці знання для уточнення або, можливо, спростування своєї гіпотези.

Крім того, одним з наслідків їхнього дослідження є те, що астроцити можуть бути залучені до довгострокової пам’яті, оскільки мережа повинна зберігати інформацію, щоб мати можливість діяти на неї в майбутньому. За словами Кротова, подальші дослідження можуть підтвердити цю ідею.

«З багатьох причин астроцити надзвичайно важливі для пізнання та поведінки, і вони працюють принципово інакше, ніж нейрони. Я найбільше сподіваюся, що ця робота стане каталізатором цілої низки досліджень у галузі комп’ютерної нейронауки, присвячених гліальним клітинам і, зокрема, астроцитам», — додав Лео Козачков.