BTC$29880

ETH$3666

Шукати

Агностичний до задач та доменів фреймворк для виявлення фактичних помилок у текстах, згенерованих великими мовними моделями

GPT-4 є прикладом технології генеративного штучного інтелекту (ШІ), яка об’єднує кілька завдань з обробки природної мови в одну задачу, що генерує послідовності. Завдяки винятковій ефективності та інтерактивності, ця уніфікована архітектура дозволяє користувачам виконувати різні види діяльності (включаючи генерацію коду, розв’язання математичних задач і створення наукових публікацій), використовуючи інтерфейс природної мови. Однак така генеративна парадигма також несе з собою певні труднощі. Через обмеження великих мовних моделей (LLM) автоматично згенерований текст часто містить помилки або відхилення від істини.

LLM схильні до створення переконливої інформації, але можуть потребувати більшої точності та достовірності у викладі фактів. Це обмеження обмежує використання генеративного ШІ в деяких галузях з високими ризиками, таких як охорона здоров’я, фінанси та юриспруденція. Таким чином, корисність і достовірність створеного матеріалу необхідно підвищувати шляхом методичного виявлення цих помилок. Наприклад, моделі верифікації, доповнені пошуком, для забезпечення якості, моделі виявлення галюцинацій для узагальнення тексту і моделі оцінки коду на основі виконання – це лише кілька прикладів окремих конкретних завдань, які перебувають у центрі уваги сучасної літератури з виявлення та пом’якшення фактичних помилок, спричинених моделями машинного навчання.

Враховуючи надзвичайну гнучкість видів діяльності та сфер, якими займаються магістри, ці підходи продемонстрували успіх у відповідних галузях. Проте вкрай важливо мати більш ретельну систему виявлення та перевірки фактичних даних, яка була б настільки ж адаптивною, наскільки це можливо. Крім того, в сучасній літературі проблема виявлення фактичних даних часто зводиться до оцінки того, чи є твердження фактично точним, або визначення того, чи підтверджується висунуте твердження наведеними доказами.

При написанні завдань, які користувачі часто виконують, взаємодіючи з генеративними моделями (такими як ChatGPT), де їм часто потрібно оцінити фактичність довготривалої генерації без явних тверджень і доказів, це визначення завдання потребує кращого узгодження. У цьому дослідженні дослідники з Шанхайського університету Цзяо Тун, Університету Карнегі-Меллона, Міського університету Гонконгу, Нью-Йоркського університету, Meta AI, Гонконгського університету науки і технологій та Шанхайської лабораторії штучного інтелекту пропонують FACTOOL – фреймворк для діагностики завдань і доменів, який шукає фактичні помилки в документах, створених LLM. Здатність використовувати інструменти в LLM має важливе значення для виявлення фактичних помилок, де вони пов’язують поняття “використання інструментів” і “виявлення фактичних помилок” та пояснюють свій підхід.

Фреймворк, доповнений інструментами, для виявлення фактів. Джерело

Щоб отримати докази достовірності створеної інформації, FACTOOL спеціально використовує різноманітні ресурси, такі як Google Search, Google Scholar, інтерпретатори коду, Python або навіть LLMs. Крім того, їхня методологія використовує навички критичного мислення LLM для оцінки фактичності контенту в світлі наявних даних. Вони створюють бенчмарк і проводять експерименти для чотирьох завдань:

  • Забезпечення якості на основі знань
  • Створення коду
  • Розв’язування математичних задач
  • Написання оглядів наукової літератури

Вони розглядають завдання ідентифікації фактичних даних і розширюють його, щоб уможливити більш ретельний аудит найновіших генеративних моделей штучного інтелекту. Щоб забезпечити уніфіковану та адаптовану структуру для ідентифікації фактичності в різних сферах і видах діяльності, вони об’єднують “використання інструментів” і “виявлення фактичності”. GPT-4 має найвищу фактичність практично у всіх ситуаціях, згідно з їхнім аналізом фактичності сучасних чат-ботів за допомогою FACTOOL. Тести забезпечення якості на основі баз знань показують, що ретельно відточені чат-боти (Vicuna-13B) мають пристойну фактичність. Проте їм важко даються більш складні завдання, такі як написання оглядів наукової літератури та відповіді на арифметичні задачі.