07.12.2023 09:48

Google випустила Gemini, який може розуміти та інтегрувати текст, зображення, аудіо та відео

Компанія Google представила Gemini, новий мультимодальний штучний інтелект, який може розуміти та інтегрувати текст, зображення, аудіо та відео. Gemini доступний у трьох версіях: Nano, Pro та Ultra.

Найдосконаліша версія, Gemini Ultra, показала високі результати в кількох популярних тестах, зрівнявшись або навіть перевершивши людські показники. Наприклад, вона встановила нові рекорди у 30 з 32 тестів на іспиті MMLU, який охоплює різні академічні предмети.

Ключовою особливістю Gemini є його «вроджене мультимодальне» навчання. Це дозволяє йому обробляти різні типи даних, такі як текст, зображення та аудіо, як вхідні та вихідні дані. Такий підхід означає, що модель була побудована і навчена з нуля, щоб розуміти різні вхідні дані, а не є результатом пізнішого об’єднання окремих режимів і модулів.

Це відрізняє Gemini від інших мультимодальних штучних інтелектів, які часто використовують підхід, заснований на об’єднанні окремих моделей ШІ. Наприклад, ChatGPT поєднує GPT-4 Turbo з Dall-E 3 для обробки тексту для створення зображень. Також GPT-4 Vision для обробки зображень і спеціальний модуль кодування для обчислень.

Google Gemini демонструє чудові результати в тестах штучного інтелекту. Джерело: Google

Ранні якісні оцінки Gemini свідчать про його чудову здатність до крос-модального мислення. Наприклад, в освітньому середовищі Gemini може розуміти складні проблеми з фізики, перетворюючи їх на математичні формули та надаючи правильні рішення.

Gemini Nano, менший за розміром сервіс, розроблений для ефективної роботи на пристрої. Він чудово справляється з підбиттям підсумків, розумінням прочитаного і різними завданнями на міркування. Попри менший розмір, Gemini Nano демонструє чудову продуктивність у порівнянні з більшою моделлю Gemini Pro.

Gemini виглядає як дуже сильний дебют за будь-якими показниками. В міру того, як його можливості будуть вдосконалюватися, його універсальність може призвести до появи нових застосунків у багатьох сферах. Однак наразі, щоб визначити його реальний рівень продуктивності, потрібне подальше тестування в реальних умовах.

Користувачі можуть протестувати доопрацьовану версію Gemini Pro вже сьогодні за допомогою Bard. Gemini Ultra буде випущена наступного року в новій версії чат-бота Google під назвою Bard Advanced. Google планує запустити Gemini більш ніж 170 мовами та використовувати цю технологію для підтримки лінійки Pixel і пошукової системи Search Generative Experience.

Нагадаємо, у вересні Google надавала обмежений доступ до свого продукту Gemini AI обраним установам.