BTC$29880

ETH$3666

Шукати

Моделі штучного інтелекту в рейтингу галюцинацій

Незважаючи на трансформаційний потенціал штучного інтелекту, ахіллесовою п’ятою генеративного штучного інтелекту залишається його схильність до підтасовування інформації. Великі мовні моделі (LLM) часто «галюцинують», генеруючи контент, який може призвести до дезінформації та непорозумінь у сфері обробки природної мови (NLP).

У відповідь на цю проблему Huggingface, провідна спільнота розробників ШІ з відкритим вихідним кодом, запровадила рейтинг галюцинацій (Hallucinations Leaderboard). Ця система оцінює LLM з відкритим вихідним кодом на основі їхньої схильності створювати контент, що містить галюцинації, за низкою критеріїв.

Джерело

Рейтинг зосереджується на двох основних категоріях галюцинацій: фактичність і достовірність. Фактичні галюцинації виникають, коли створений контент суперечить реальним фактам, які можна перевірити, тоді як вірогідні галюцинації виникають, коли контент відхиляється від інструкцій користувача або встановленого контексту. Розглядаючи ці проблеми, таблиця лідерів має на меті спрямувати дослідників та інженерів на розробку більш точних і достовірних мовних моделей.

Використовуючи EleutherAI’s Language Model Evaluation Harness, таблиця лідерів проводить ретельне оцінювання LLM для різних завдань, оцінюючи моделі на основі їхньої загальної продуктивності. Попередні результати показують, що такі моделі, як Meow (на основі Solar), Stability AI’s Stable Beluga та LlaMA-2 від Meta, демонструють меншу кількість галюцинацій і є одними з найкращих. Крім того, моделі на основі LLM Mistral демонструють високі показники в окремих тестах.

Важливо усвідомлювати, що хоча деякі моделі чудово справляються з певними завданнями, їхня ефективність може відрізнятися в різних тестах. Тому в таблиці лідерів моделі ранжуються на основі середнього балу, враховуючи такі фактори, як узагальнення, перевірка фактів і розуміння прочитаного.

У той час як Hallucinations Leaderboard пропонує комплексну оцінку моделей з відкритим кодом, моделі з закритим кодом ще не пройшли такого суворого тестування. Через обмеження прав власності, оцінка моделей із закритим кодом у таблиці лідерів залишається малоймовірною.

Загалом, Hallucinations Leaderboard надає цінну інформацію про надійність мовних моделей, допомагаючи розробляти системи штучного інтелекту, які генерують точний і достовірний контент.