15.05.2024 15:55

Google анонсував швидку мультимодальну модель Gemini 1.5 Flash

Google розпочинає впровадження Gemini 1.5 Flash — компактної мультимодальної моделі, призначеної для вирішення окремих завдань, орієнтованих на високу швидкість і масштабування. Вона може похвалитися контекстним вікном на мільйон токенів і тепер доступна для публічного попереднього ознайомлення через Gemini API в Google AI Studio.

Водночас Gemini 1.5 Pro, вперше представлений у лютому, отримує розширене контекстне вікно, збільшене вдвічі – з одного мільйона до двох мільйонів токенів. Розробники, зацікавлені в цьому вдосконаленні, повинні приєднатися до списку очікування для отримання доступу.

Gemini 1.5 Flash і Gemini 1.5 Pro мають помітні відмінності. У першій пріоритетом є швидкість виведення, в той час як друга має більшу складність і продуктивність, порівнянну з великою моделлю Google 1.0 Ultra. Віце-президент Google Labs Джош Вудворд підкреслює, що Gemini 1.5 Flash підходить для швидких завдань, що вимагають низької затримки, в той час як Gemini 1.5 Pro призначений для більш широких, часто складних, багатокрокових завдань з міркуваннями.

Ця різноманітна лінійка моделей штучного інтелекту пропонує розробникам цілий ряд варіантів, а не універсальне рішення. Не кожна програма потребує ідентичних даних і можливостей ШІ, а наявність різноманітних варіантів може суттєво вплинути на досвід користувачів у використанні сервісів зі штучним інтелектом. Важливим аспектом є здатність Google надавати розробникам найсучасніші моделі штучного інтелекту, підвищуючи при цьому продуктивність. Однак недоліком є те, що ці моделі не можуть навчатися на великих наборах даних, що спонукає розробників розглянути можливість переходу на Gemini 1.5 Pro для отримання більш розширених функціональних можливостей.

*Скріншот зі трансляції Google I/O 2024*

Спектр моделей штучного інтелекту Google охоплює легкі варіанти, такі як Gemma і Gemma 2, а також Gemini Nano, Gemini 1.5 Flash, Gemini 1.5 Pro і Gemini 1.0 Ultra. Вудворд підкреслює, що розробники можуть легко переключатися між цими моделями в залежності від конкретних сценаріїв використання, отримуючи переваги від сумісного мультимодального введення, довгих контекстних вікон і продуктивності внутрішнього середовища.

Це оголошення з’явилося одразу після того, як конкурент Google, OpenAI, представив GPT-4o, мультимодальний LLM, доступний для всіх користувачів і супроводжуваний десктопним додатком.

Обидві моделі Gemini 1.5 доступні для публічного перегляду в більш ніж 200 країнах і територіях по всьому світу, включаючи Європейський економічний простір, Великобританію і Швейцарію.