
25.11.2023 13:38
Дослідники з Пенсильванії створили фреймворк машинного навчання для тестування ChatGPT-Vision від OpenAI.
Модель GPT-Vision привернула широку увагу завдяки своїй здатності розуміти і генерувати контент, пов’язаний як з текстом, так і з зображеннями. Однак існує значна проблема – бракує точного розуміння щодо переваг і недоліків GPT-Vision. Така нечіткість створює потенційні ризики, особливо при розгортанні моделі в критично важливих сферах, де помилки можуть призвести до серйозних наслідків.
Традиційно моделі ШІ, такі як GPT-Vision, оцінюються дослідниками за допомогою великого збору даних і використання автоматичних метрик. Однак дослідники пропонують альтернативний підхід – аналіз на основі прикладів. Цей метод зміщує фокус з аналізу величезних обсягів даних на вивчення невеликої кількості конкретних прикладів. Науково обґрунтований і доведено ефективний в інших галузях, цей підхід має на меті забезпечити нюансоване розуміння можливостей GPT-Vision.
Щоб вирішити проблему розуміння можливостей GPT-Vision, дослідники з Університету Пенсильванії представили формалізований метод штучного інтелекту, натхненний соціальними науками та взаємодією людини і комп’ютера. Цей підхід, заснований на машинному навчанні, пропонує структуровану основу для оцінки продуктивності моделі, підкреслюючи глибоке розуміння її реальної функціональності.
Запропонований метод оцінювання охоплює п’ять етапів: збір даних, аналіз даних, дослідження теми, розробка теми та застосування теми. Спираючись на обґрунтовану теорію та тематичний аналіз – визнані методи в соціальних науках – цей метод дозволяє отримати глибокі висновки навіть при відносно невеликому обсязі вибірки.
Щоб продемонструвати ефективність цього процесу оцінювання, дослідники застосували його до конкретного завдання – створення альтернативного тексту для наукових фігур, що має вирішальне значення для донесення змісту зображень до людей з порушеннями зору. Аналіз показав, що хоча GPT-Vision демонструє вражаючі можливості, він має тенденцію надмірно залежати від текстової інформації, чутливий до швидких формулювань і має проблеми з розумінням просторових відносин.
У висновку дослідники підкреслюють, що цей якісний аналіз на прикладах не тільки виявляє обмеження GPT-Vision, але й підкреслює необхідність вдумливого підходу до розуміння та оцінки нових моделей ШІ. Головна мета – запобігти потенційному зловживанню цими моделями, особливо в ситуаціях, коли помилки можуть призвести до серйозних наслідків.