BTC$29880

ETH$3666

Шукати

DeepMind від Google запускає «Gecko»

Gecko це новий набір тестів, розроблений Google DeepMind, який покликаний усунути обмеження в оцінюванні моделей штучного інтелекту, що перетворюють текст на зображення. Хоча ці моделі можуть генерувати чудові зображення на основі текстових підказок, поточні методи оцінки часто не дозволяють оцінити їхні справжні можливості.

Дослідники, що стоять за розробкою Gecko, визнали, що чинні набори даних і автоматичні метрики не дають повного уявлення про те, наскільки добре ці моделі розуміють і реагують на текстові підказки. Невеликі людські оцінки обмежені, а автоматичні метрики можуть пропустити важливі тонкощі або навіть не збігатися з людськими судженнями.

Щоб розв’язати ці проблеми, Gecko бомбардує моделі перетворення тексту в зображення 2 000 різноманітних текстових підказок, які перевіряють різні навички та рівні складності. Ці підказки класифіковані за певними навичками, що дозволяє фахівцям точно визначити слабкі місця моделі. Такий підхід виходить за рамки нечітких оцінок і дає більш детальне розуміння продуктивності моделі.

Gecko також збирає понад 100 000 людських оцінок щодо зображень, згенерованих провідними моделями у відповідь на його підказки. Ці просторі дані зворотного зв’язку допомагають розрізняти обмеження, властиві моделям, неоднозначні підказки та непослідовні методи оцінювання. Крім того, Gecko має покращену метрику автоматичного оцінювання на основі запитань-відповідей, яка тісніше пов’язана з людськими судженнями порівняно з чинними метриками.

Результати оцінки Gecko виявили раніше не помічені відмінності в сильних і слабких сторонах найсучасніших моделей перетворення тексту в зображення. Модель Muse від DeepMind виявилася найкращою за суворими критеріями Gecko.

Дослідники підкреслюють важливість використання різноманітних тестів і підходів до оцінки, щоб отримати більш точне уявлення про можливості штучного інтелекту перед реальним розгортанням. Вони планують викласти код і дані Gecko у вільний доступ, щоб сприяти подальшому прогресу в цій галузі.