BTC$29880

ETH$3666

Шукати

Google DeepMind представила ReadAgent для подолання розриву між ШІ та читанням людиною

Вміння штучного інтелекту (ШІ) сприймати й розуміти великі тексти стає критично важливим. Попри власні мовні здібності, традиційні великі мовні моделі (LLM) не завжди справляються з обробкою довгих документів через обмеження в обробці великих обсягів вхідних даних. Ця проблема обмежує їхню корисність в сценаріях, де важливо розуміти великі тексти, що підкреслює необхідність інноваційних рішень, які відтворюють когнітивну гнучкість людини у роботі з обсягами інформації.

Бажання вийти за межі цих обмежень спонукало дослідників з Google DeepMind та Google Research створити ReadAgent. Ця нова система натхнена людськими стратегіями читання з метою значного покращення здатностей штучного інтелекту у розумінні тексту. На відміну від традиційних підходів, які або розширюють контекстне вікно, яке може сприймати ШІ, або покладаються на зовнішні системи пошуку даних для заповнення прогалин у розумінні, ReadAgent використовує більш тонкий, схожий на людський, метод ефективної навігації у довгих документах.

В основі дизайну ReadAgent лежить розумна емуляція людської поведінки під час читання, зокрема, практики узагальнення та запам’ятовування. Цей підхід передбачає три етапи:

  • Розділення тексту на керовані частини.
  • Стиснення цих частин у короткі, схожі на суть, резюме.
  • Динамічне запам’ятовування деталей з цих резюме при необхідності.

Такий підхід дозволяє штучному інтелекту зрозуміти основний зміст документа, незалежно від його обсягу, фокусуючись на ключовій інформації та стратегічно переглядаючи деталі при необхідності.

Методологія, що стоїть за ReadAgent, є одночасно простою і геніальною. Спочатку система розбиває довгий текст на епізоди на основі природних пауз, аналогічно до глав або розділів у людському читанні. Потім ці епізоди стискаються в «пам’ять суті», яка відображає суть тексту в рази меншому обсязі, ніж оригінал. Коли для вирішення запиту або завдання потрібна конкретна інформація, ReadAgent переглядає відповідні детальні епізоди, використовуючи ці спогади як дорожню карту до оригінального тексту. Цей процес не тільки імітує людські стратегії роботи з довгими текстами, але й значно збільшує ефективну довжину контексту, з яким можуть працювати LLM, успішно подолавши одне з основних обмежень сучасних моделей ШІ.

Ефективність ReadAgent підкреслюється його результативністю в декількох завданнях розуміння довгих документів. В експериментах ReadAgent показав значне покращення порівняно з існуючими методами, збільшивши ефективну довжину контексту у 20 разів. Зокрема, у тестовому наборі NarrativeQA Gutenberg ReadAgent покращив рейтинг LLM на 12,97% і ROUGE-L на 31,98% порівняно з найкращим базовим показником, що демонструє відмінність у здатності розуміти та обробляти довгі документи. Ці результати підкреслюють не лише потенціал ШІ у вивченні стратегій читання та розуміння, подібних до людських, але й практичну застосовність таких підходів для поліпшення здатності ШІ розуміти складні тексти.

Нагадаємо, дослідники з Google DeepMind та Університету Південної Каліфорнії розробили новий підхід для поліпшення міркувань LLM — фреймворк «самопізнання».