BTC$29880

ETH$3666

Шукати

ChatGPT досліджує контекст посилань для мультимодального навчання

Мовні моделі трансформували спілкування між людиною та комп’ютером, генеруючи зв’язний і контекстуально релевантний текст. Великі мовні моделі (LLM), такі як ChatGPT, очолили цю революцію, опанувавши людські мовні патерни шляхом тривалого навчання на величезних наборах текстових даних.

LLM спростили різні завдання, від узагальнення тексту до автоматизації кодування, які колись займали багато часу. Однак попит на мультимодальне розуміння, коли моделі обробляють текст, зображення та відео, зумовив потребу в мультимодальних великих мовних моделях (MLLM). MLLM поєднують мовну майстерність з візуальним сприйняттям для створення комплексного та контекстно-орієнтованого контенту.

У той час як ChatGPT здобув популярність, MLLM зробили революцію в ШІ, розуміючи і генеруючи текст і зображення. Незважаючи на чудову ефективність у таких завданнях, як розпізнавання зображень, навчання MLLM залишається складним, особливо в нових сценаріях.

MLLM, як правило, важко справляється з довгими контекстами, значною мірою покладаючись на початкову та середню частини, що впливає на точність. Вводимо Link-context-learning (LCL), яке вирішує ці проблеми.

Демонстраційний діалог запропонованого навчання на основі зв’язку та контексту. Джерело

MLLM використовує дві ключові стратегії навчання: Мультимодальне налаштування підказок (Multimodal Prompt Tuning, M-PT) і мультимодальне налаштування інструкцій (Multimodal Instruction Tuning, M-IT). M-PT точно налаштовує частину параметрів моделі, зберігаючи інші замороженими, оптимізуючи результати та заощаджуючи обчислювальні ресурси. M-IT покращує можливості нульового пострілу (Zero-shot learning, ZSL) шляхом точного налаштування на наборах даних з описами інструкцій.

Різниця між навчанням у контексті та навчанням у зв’язці з контекстом. Джерело

Навчання на основі зв’язків (Link-Context Learning, LCL) передбачає різні стратегії навчання, зокрема змішану стратегію, двосторонню стратегію, двосторонню випадкову стратегію та двосторонню вагову стратегію. Змішана стратегія значно підвищує точність при нульовому пострілі, але дещо знижується при 16 пострілах, тоді як двостороння стратегія поступово підвищує точність від 2 пострілів до 16 пострілів.

LCL виходить за рамки традиційного навчання в контексті, дозволяючи моделям встановлювати зв’язки між джерелом і ціллю, підвищуючи продуктивність. Надаючи демонстрації з причинно-наслідковими зв’язками, LCL дає можливість MLLM розпізнавати аналогії і причинно-наслідкові асоціації, покращуючи їхню здатність розпізнавати невидимі образи і розуміти нові концепції. Набір даних ISEKAI підтримує ці досягнення.

LCL також представляє набір даних ISEKAI, розроблений для оцінки можливостей MLLM. Він кидає виклик моделям, щоб зрозуміти нові концепції з поточних розмов і зберегти знання для точних відповідей на питання.

На завершення, LCL пропонує розуміння стратегій навчання для мультимодальних мовних моделей. Змішані та двосторонні стратегії підвищують ефективність MLLM, кожна з яких має свої сильні та слабкі сторони. Цей контекстний аналіз висвітлює проблеми в обробці довгих вхідних даних, підкреслюючи необхідність подальших досліджень у цій галузі.