
05.08.2023 15:59
Оцінювання точності та надійності моделей ШІ, з точки зору їхньої здатності відповідати на запитання
Нові великі мовні моделі (“Large Language Models”, LLM) викликали значний ажіотаж у середовищі фахівців зі штучного інтелекту. Ці моделі чудово імітують людські здібності, використовуючи передові методи обробки природної мови (“Natural Language Processing”, NLP), генерації природної мови (“Natural Language Generation”, NLG) та розуміння природної мови (“Natural Language Understanding”, NLU). Вони привертають увагу своєю майстерністю імітувати розмови, подібні до людських, вправно відповідати на прості та складні запити, генерувати контент, завершувати код, полегшувати переклад і стискати текст. Мета NLP – навчити комп’ютери розуміти команди природної мови і реагувати на них, сприяючи більш органічній та адаптивній взаємодії. Моделі, що слідують за інструкцією, є прикладом цього прагнення.
Ці моделі навчаються за допомогою великих мовних моделей, прикладів, що контролюються, або інших форм керівництва, які передбачають виконання численних завдань поданих у вигляді інструкцій природною мовою. У нещодавньому дослідженні вчені з Mila Quebec AI Institute, McGill University і Facebook CIFAR AI Chair вивчили ефективність моделей, що слідують інструкціям, у виконанні завдань з пошуку відповідей на конкретні текстові уривки. Ці моделі можуть адекватно відповідати на запитання на основі наданої підказки, що містить завдання, саме запитання та відповідні сегменти тексту, знайдені пошуковим алгоритмом. Відповіді, згенеровані цими моделями, демонструють природну та інформативну якість, що сприяє підвищенню довіри та залученості користувачів.
Ці моделі можуть легко і безперешкодно відповідати на запити користувачів, включаючи знайдені документи та інструкції у свої вхідні дані. Однак ця додаткова інформація може створювати проблеми для традиційних показників оцінки якості, таких як точна відповідність (“EM” Exact Match) і оцінка F1, для точного вимірювання продуктивності моделі. Це пов’язано з тим, що відповідь моделі може містити додаткові деталі, які виключає еталонна відповідь, але при цьому залишатися точною. Щоб вирішити цю проблему, команда запровадила два критерії для оцінювання моделей, що слідують за інструкціями, у розширеному забезпеченні якості (“QA” Quality Assurance). Ці критерії спрямовані на подолання саме цієї проблеми.
- Релевантність і точність інформації: Цей аспект оцінює, наскільки модель відповідає інформаційним потребам користувача. Він зосереджується на тому, чи містить згенерована відповідь релевантну інформацію, навіть якщо вона виходить за рамки того, що явно зазначено в еталонній відповіді.
- Вірність представленої інформації: Цей аспект оцінює, наскільки ефективно модель узгоджує свої відповіді з представленими знаннями. Надійна модель повинна уникати реагування на нерелевантну інформацію і надавати точні відповіді, коли є релевантна інформація.
Дослідники проаналізували різні сучасні моделі навчання на основі інструкцій у трьох різних наборах даних з контролю якості: Natural Questions для QA у відкритих доменах, HotpotQA для багатоцехового QA та TopiOCQA для діалогового QA. Вони вручну оцінили 900 модельних відповідей і порівняли результати з різними автоматизованими метриками точності та достовірності. Їхні висновки показали, що показник пригадування, який вимірює частку лексем з еталонної відповіді, присутніх у відповіді моделі, тісніше пов’язаний з правильністю, ніж показники лексичного збігу, такі як EM або оцінка F1. Серед інших метрик збігу токенів для перевірки вірності, K-Precision, яка вимірює відсоток токенів відповіді моделі, знайдених у фрагменті знань, демонструє сильнішу кореляцію з людськими оцінками.
Підсумовуючи, це дослідження має на меті покращити комплексну оцінку моделей, що слідують за інструкціями, у завданнях контролю якості, враховуючи як їхні сильні сторони, так і обмеження. Команда зробила свій внесок у прогрес у цій галузі, поділившись своїм кодом і даними у репозиторії GitHub, заохочуючи подальший розвиток.