BTC$29880

ETH$3666

Шукати

Подолання галюцинацій в ШІ

Завдяки додатковому попередньому навчанню з використанням пар зображення-текст або точному налаштуванню за допомогою спеціалізованих наборів даних з візуальними інструкціями, великі мовні моделі (LLM) можуть перейти в область мультимодальних можливостей, прокладаючи шлях до надійних великих мультимодальних моделей (LMM). Однак, створення LMM пов’язане з певними проблемами, зокрема, з невідповідністю кількості та якості мультимодальних даних і наборів лише текстових даних. Візьмемо, наприклад, модель LLaVA, яка починається з попередньо навченого візуального кодера і мовної моделі, налаштованої для інструкцій. Вона проходить навчання на значно меншій кількості прикладів порівняно з текстовими моделями, які навчаються на понад 100 мільйонах прикладів у 1800 завданнях. Навчальні дані LLaVA обмежені лише 150 000 штучних діалогів на основі зображень, що призводить до потенційної невідповідності між візуальною та мовною модальностями.

Ця невідповідність може призвести до того, що LMM генеруватиме помилкові висновки, відірвані від контекстної інформації, яку передають зображення. Щоб вирішити цю проблему, пов’язану з нестачею високоякісних даних для налаштування візуальних інструкцій, дослідники з Каліфорнійського університету в Берклі, CMU, UIUC, UW-Madison, UMass Amherst, Microsoft Research та MIT-IBM Watson AI Lab представили LLaVA-RLHF. Ця модель на основі алгоритмів машинного зору, ретельно навчена для покращення мультимодального узгодження. Вагомим внеском їхньої роботи є адаптація мультимодального вирівнювання для LMM за допомогою підкріплення навчання на основі зворотного зв’язку з людиною (RLHF) — універсальної та масштабованої парадигми вирівнювання, яка показала неабияку ефективність у системах штучного інтелекту, заснованих на тексті. Цей підхід передбачає збір людських уподобань, з акцентом на розпізнавання галюцинацій, і використання цих уподобань у навчанні з підкріпленням для точного налаштування LMM.

Ця стратегія обіцяє покращити мультимодальне узгодження при відносно низькій вартості анотації, наприклад, $3000 за збір 10 000 людських уподобань для дискусій на основі зображень. Наскільки їм відомо, це перше ефективне використання RLHF для мультимодального узгодження. Хоча отримання високих рейтингів за допомогою моделі винагороди іноді безпосередньо не корелює з поліпшенням людських суджень, що можна розглядати як форму хакінгу винагороди, це дослідження вирішує цю проблему, притаманну сучасній парадигмі RLHF. Замість дорогого ітеративного збору “свіжих” людських відгуків для протидії “хакерству заохочень” вони пропонують більш ефективний підхід, спрямований на те, щоб модель винагороди використовувала знання і дані, вже наявні в більших мовних моделях, анотованих людьми.

Діаграма, що ілюструє можливість виникнення галюцинацій під час фази контрольованого тонкого налаштування (Supervised Fine-Tuning, SFT) навчання LMM і те, як Factually Augmented RLHF вирішує проблему низької продуктивності моделі винагороди, яка ініціалізується з моделі SFT. Джерело

Щоб підвищити продуктивність моделі винагороди, вони використовують кращий візуальний кодер з вищою роздільною здатністю і більшою мовною моделлю. Крім того, вони впроваджують алгоритм Factually Augmented RLHF, який вдосконалює сигнали винагороди шляхом включення додаткової інформації, такої як описи зображень або правдиві варіанти багатоваріантного вибору. Вони також збагачують дані налаштування інструкцій синтетичного зору високоякісними мультимодальними даними з людським коментарем у форматі розмови під час етапу контрольованого точного налаштування. Зокрема, вони перетворюють такі набори даних, як Flickr30k, на завдання точкового пошуку субтитрів і перетворюють VQA-v2 і A-OKVQA на багатораундові завдання контролю якості, використовуючи ці набори даних для навчання моделей LLaVA-SFT+.

Нарешті, вони розглядають оцінку мультимодального узгодження LMM в реальних сценаріях, приділяючи особливу увагу покаранню галюцинацій. Вони представили контрольні запитання в рамках MMHAL-BENCH, що охоплюють всі 12 ключових категорій об’єктів з COCO і включають вісім різних типів завдань. Їхній аналіз показує, що цей контрольний набір даних тісно пов’язаний з людськими оцінками, особливо при розгляді оцінок проти галюцинацій. Будучи першим LMM, навченим за допомогою RLHF, LLaVA-RLHF демонструє вражаючі результати в експериментальних оцінках, демонструючи покращення на 94% на LLaVA-стенді, на 60% на MMHAL-стенді та встановлюючи нові рекорди продуктивності для LLaVA з 52,4% на MMB-стенді та 82,7% F1 на POPE. Дослідники виклали свій код, модель і дані у відкритий доступ на GitHub, сприяючи прозорості та доступності в цій інноваційній галузі досліджень.