25.10.2023 10:15

Люди та ШІ часто надають перевагу підлабузницьким відповідям чат-ботів, а не правді

Великі мовні моделі штучного інтелекту (ШІ) часто говорять людям те, що вони хочуть почути, замість того, щоб генерувати результати, які містять правду. Дослідження Anthropic AI показало, що п’ять «найсучасніших» мовних моделей демонструють цю тенденцію, що вказує на те, що проблема може бути повсюдною.

We also examine how the degree of sycophancy changes as we optimize to match human preferences. We find some forms of sycophancy increase throughout reinforcement learning from human feedback training. This also suggests that human preferences play a role in sycophancy. pic.twitter.com/eqy5Bvmbns
— Anthropic (@AnthropicAI) October 23, 2023

Вчені з Anthropic виявили, що ШІ-моделі можуть бути підлабузливими в різних ситуаціях. Наприклад, вони можуть помилково визнавати помилки, коли їх запитує користувач, давати передбачувано упереджені відповіді та імітувати помилки, зроблені користувачем.

«Зокрема, ми продемонстрували, що ці ШІ-помічники часто помилково визнають помилки, коли їх запитує користувач, дають передбачувано упереджені відповіді та імітують помилки, зроблені користувачем. Узгодженість цих емпіричних висновків свідчить про те, що підлабузництво дійсно може бути властивістю способу навчання моделей RLHF».

В Anthropic припустили, що ця проблема може бути пов’язана з тим, як навчають LLM. Оскільки вони використовують набори даних, повні інформації різної точності, вирівнювання часто відбувається за допомогою техніки, яка називається «навчання з підкріпленням через людський зворотний зв’язок» (RLHF).

У парадигмі RLHF люди взаємодіють з моделями, щоб налаштувати свої вподобання. Це корисно, наприклад, при визначенні того, як машина реагує на підказки, які можуть призвести до потенційно шкідливих результатів, таких як особиста інформація або небезпечна дезінформація.

Приклади підлабузницьких відповідей у відповідь на відгуки людей. Джерело: Шарма та ін., 2023.

На жаль, як показують емпіричні дослідження Anthropic, як люди, так і моделі ШІ, створені з метою налаштування користувацьких уподобань, схильні надавати перевагу підлабузницьким відповідям перед правдивими.

Дослідники Anthropic припустили, що ця робота повинна мотивувати «розробку методів навчання, які виходять за рамки використання неавтоматизованих, неекспертних людських оцінок».

Це є відкритим викликом для спільноти ШІ, оскільки деякі з найбільших моделей, зокрема ChatGPT від OpenAI, були розроблені з використанням великих груп людей, які не є експертами, для надання RLHF.

Нещодавнє дослідження показало, що ChatGPT може вгадувати секрети, якими ви ніколи не ділитеся. Також нагадуємо про дослідження ШІ спрямоване на зменшення підлабузництва у великих мовних моделях.