
04.11.2023 15:53
Оцінка розширених можливостей перевірки фактів у великих мовних моделях, таких як GPT-4
Дослідники з Цюріхського університету провели дослідження, щоб оцінити ефективність великих мовних моделей (LLM), таких як GPT-4, в автономній перевірці фактів. Вони оцінили здатність моделей формулювати запити, отримувати контекстну інформацію, приймати рішення, надавати пояснення та цитати. Результати показують, що LLM, зокрема GPT-4, добре працюють, коли їм надається контекстна інформація. Однак їхня точність варіюється залежно від мови запиту та правдивості тверджень, що перевіряються. Хоча LLM є перспективним інструментом для перевірки фактів, дослідження підкреслює необхідність подальших досліджень для кращого розуміння їхніх можливостей та обмежень.
Автоматизована перевірка фактів набуває все більшого значення через зростання кількості дезінформації в Інтернеті. Дослідження підкреслює важливість пояснюваності в фактчекінгу, оскільки чіткі пояснення вердиктів фактчекінгу мають вирішальне значення для журналістського використання.
У дослідженні оцінювалися LLM, зокрема GPT-3.5 і GPT-4, за двох умов: без доступу до зовнішньої інформації та з доступом до контекстних даних. Дослідники розробили ітеративний агент для автоматизованої перевірки фактів з використанням фреймворку ReAct. Цей агент автономно вирішує, чи завершити пошук, чи продовжити з більшою кількістю запитів, щоб збалансувати точність та ефективність. Він також обґрунтовує свої вердикти фактчекінгу за допомогою цитованих аргументів.
Результати показують, що GPT-4 загалом перевершує GPT-3.5 у роботі з набором даних PolitiFact, особливо за наявності контекстної інформації. Однак рекомендується бути обережними через варіації в точності, особливо в таких нюансованих категоріях, як “напівправда” і “переважно неправда”. Дослідження закликає до подальших досліджень, щоб краще зрозуміти умови, за яких LLM досягають успіху або зазнають невдач у виконанні завдань з перевірки фактів.
Отже, GPT-4 є перспективним інструментом для автономної перевірки фактів, але його точність залежить від мови запитів і правдивості тверджень. Необхідні подальші дослідження для кращого розуміння ефективності LLM у фактчекінгу та усунення розбіжностей у їхній точності. Дослідження підкреслює важливість поінформованого людського нагляду при залученні LLM до перевірки фактів, оскільки навіть 10% помилок можуть мати значні наслідки в сучасному інформаційному ландшафті.