
15.05.2024 15:55
Google анонсував швидку мультимодальну модель Gemini 1.5 Flash
Google розпочинає впровадження Gemini 1.5 Flash — компактної мультимодальної моделі, призначеної для вирішення окремих завдань, орієнтованих на високу швидкість і масштабування. Вона може похвалитися контекстним вікном на мільйон токенів і тепер доступна для публічного попереднього ознайомлення через Gemini API в Google AI Studio.
Водночас Gemini 1.5 Pro, вперше представлений у лютому, отримує розширене контекстне вікно, збільшене вдвічі – з одного мільйона до двох мільйонів токенів. Розробники, зацікавлені в цьому вдосконаленні, повинні приєднатися до списку очікування для отримання доступу.
Gemini 1.5 Flash і Gemini 1.5 Pro мають помітні відмінності. У першій пріоритетом є швидкість виведення, в той час як друга має більшу складність і продуктивність, порівнянну з великою моделлю Google 1.0 Ultra. Віце-президент Google Labs Джош Вудворд підкреслює, що Gemini 1.5 Flash підходить для швидких завдань, що вимагають низької затримки, в той час як Gemini 1.5 Pro призначений для більш широких, часто складних, багатокрокових завдань з міркуваннями.
Ця різноманітна лінійка моделей штучного інтелекту пропонує розробникам цілий ряд варіантів, а не універсальне рішення. Не кожна програма потребує ідентичних даних і можливостей ШІ, а наявність різноманітних варіантів може суттєво вплинути на досвід користувачів у використанні сервісів зі штучним інтелектом. Важливим аспектом є здатність Google надавати розробникам найсучасніші моделі штучного інтелекту, підвищуючи при цьому продуктивність. Однак недоліком є те, що ці моделі не можуть навчатися на великих наборах даних, що спонукає розробників розглянути можливість переходу на Gemini 1.5 Pro для отримання більш розширених функціональних можливостей.

Спектр моделей штучного інтелекту Google охоплює легкі варіанти, такі як Gemma і Gemma 2, а також Gemini Nano, Gemini 1.5 Flash, Gemini 1.5 Pro і Gemini 1.0 Ultra. Вудворд підкреслює, що розробники можуть легко переключатися між цими моделями в залежності від конкретних сценаріїв використання, отримуючи переваги від сумісного мультимодального введення, довгих контекстних вікон і продуктивності внутрішнього середовища.
Це оголошення з’явилося одразу після того, як конкурент Google, OpenAI, представив GPT-4o, мультимодальний LLM, доступний для всіх користувачів і супроводжуваний десктопним додатком.
Обидві моделі Gemini 1.5 доступні для публічного перегляду в більш ніж 200 країнах і територіях по всьому світу, включаючи Європейський економічний простір, Великобританію і Швейцарію.