24.05.2024 12:57

ШІ та теорія розуму: чи можуть GPT-4 та LLaMA-2 мислити як люди?

Дослідники з Університетського медичного центру Гамбург-Еппендорф, Італійського технологічного інституту в Генуї, Університету Тренто та інших інституцій дослідили, чи здатні великі мовні моделі (LLM), такі як GPT-4, GPT-3.5 та LLaMA2-70B, розуміти людські думки та емоції.

Теорія розуму — це здатність приписувати психічні стани собі та іншим. Вона є основою людської соціальної взаємодії. З розвитком штучного інтелекту (ШІ) та LLM виникає питання, чи зможуть вони коли-небудь досягти такого ж рівня розуміння соціальних нюансів, як люди.

Дослідження

Дослідники провели серію тестів на теорію розуму з LLM та людьми. Тести включали завдання на розуміння іронії, розпізнавання хибних переконань та інтерпретацію складних соціальних ситуацій.

a, Оригінальні тестові завдання для кожного тесту, що показують розподіл тестових балів для окремих сесій та учасників. Кольорові крапки показують середній бал відповіді на всі завдання тесту для кожної окремої сесії (LLM) або учасника (люди). Чорні точки показують медіану для кожного стану. Значення P були обчислені за допомогою двосторонніх тестів Вілкоксона з поправкою Холма, які порівнюють результати LLM (n = 15 спостережень LLM) з результатами людей (іронія, N = 50 учасників; faux pas, N = 51 учасник; натяки, N = 48 учасників; дивні історії, N = 50 учасників). Тести впорядковані в порядку спадання результатів людини. b, Міжквартильні діапазони середніх балів за оригінальні опубліковані завдання (темні кольори) і нові завдання (бліді кольори) для кожного тесту (для LLM, n = 15 спостережень LLM; для людей, хибна віра, N = 49 учасників; помилки, N = 51 учасник; натяки, N = 48 учасників; дивні історії, N = 50 учасників). Порожні ромбики позначають медіану балів, а зафарбовані кола – верхню та нижню межі міжквартильного розмаху. Наведені значення P отримані з двосторонніх тестів Вілкоксона з поправкою Холма, які порівнюють результати виконання оригінальних завдань з новими завданнями, створеними в якості контрольних для цього дослідження.

Результати

GPT-4 показав сильні результати в тестах на розуміння іронії та натяків, часто перевершуючи людей. Однак він бореться з невизначеними сценаріями, де не вистачає чітких доказів.
GPT-3.5 та LLaMA2-70B мали схильність до підтвердження невідповідних тверджень, що свідчить про те, що їм важче розрізняти правду та вигадку.
Всі LLM були обережні у своїх відповідях, щоб уникнути помилок. Це може бути пов’язано з тим, що їх навчають на величезних обсягах даних, які можуть містити помилки та неточності.
Відсутність тіла у LLM може також впливати на їхню здатність розуміти соціальні ситуації. Люди використовують не лише слова, але й невербальні сигнали, такі як вираз обличчя та мова тіла, щоб інтерпретувати соціальні взаємодії. LLM не мають такої можливості.

Висновок

Дослідження показало, що LLM, такі як GPT-4, досягли значного прогресу в розумінні людської мови та поведінки. Однак вони все ще не здатні досягти такого ж рівня розуміння соціальних нюансів, як люди. Це важливий момент, який слід враховувати при розробці ШІ-систем, які повинні взаємодіяти з людьми.

Нагадаємо, дослідження Google DeepMind у лютому виявило недоліки критичного мислення у великих мовних моделях