20.12.2023 15:32

Gemini від Google — справжній початок буму генеративного ШІ

В історії штучного інтелекту були періоди, коли технологія заходила в очевидні глухі кути, а фінансування припинялося. На цих етапах з’являлися заяви про те, що створення по-справжньому розумних машин є надто складним завданням для людини. Однак нещодавня презентація Google Gemini, яку розрекламували як принципово нову модель штучного інтелекту і найпотужнішу на сьогоднішній день, свідчить про те, що нова технологічна криза не є неминучою. Останні 12 місяців, що минули з моменту запуску ChatGPT, стали визначним роком для ШІ, натякаючи на те, що нинішній бум штучного інтелекту готовий до подальшого зростання.

Впровадження OpenAI ChatGPT у листопаді 2022 року, яке спочатку було «стриманим попереднім переглядом досліджень», перевершило всі очікування. Він став тестом нового інтерфейсу для великих мовних моделей (L LM). Універсальність чат-бота — від синтезу есе та поезії до вирішення проблем кодування — вразила і збентежила багатьох, викликавши широкий інтерес. На початку цього року Google відреагував на це, випустивши Bard, прямого конкурента ChatGPT. Однак, анонсувавши Gemini, Google стверджує, що відкрила нову еру за межами LLM, які в основному прив’язані до тексту, потенційно прокладаючи шлях для нового покоління продуктів зі штучним інтелектом, відмінних від тих, що реалізуються за допомогою ChatGPT.

Gemini, яку Google називає «природно мультимодальною» моделлю, може навчатися на основі даних, що виходять за рамки тексту, включаючи інформацію з аудіо, відео та зображень. Хоча ChatGPT продемонстрував значний потенціал навчання моделей штучного інтелекту з великим обсягом тексту, дехто стверджує, що масштабування лише мовних моделей має свої межі. Анонс Gemini з його ширшими можливостями натякає на зміну ландшафту.

У розмові з Демісом Хассабісом, керівником, який очолює розробку Gemini, він висловив ентузіазм щодо нових можливостей системи, підкресливши, що поєднання LLM з іншими технологіями штучного інтелекту має важливе значення для того, щоб системи ШІ могли розуміти світ у спосіб, який виходить за межі можливостей сучасних чат-ботів. Незважаючи на конкуренцію між Google і OpenAI, обидві компанії визнають необхідність радикально нових підходів. Поточний проект OpenAI, Q*, узгоджується з цією ідеєю, пропонуючи дослідження, що виходять за рамки масштабування існуючих систем, таких як GPT-4.

Демонстрація Google з Gemini і прагнення OpenAI до інноваційних ідей сигналізують про відхід від епохи гігантських моделей, вказуючи на колективний поштовх до досягнень, які виходять за межі можливостей сучасних чат-ботів. Це свідчить про те, що сфера штучного інтелекту стоїть на порозі значного прогресу, прямуючи до більш впливового майбутнього.