17.01.2024 09:04

Штучний інтелект може бути навчений робити зло, навіть якщо це не було його початковим призначенням

Дослідники з Anthropic Team, творців Claude AI, показали, що штучний інтелект (ШІ) можна навчити робити зло і приховувати це від своїх творців.

Команда розробила метод, який дозволяє інтегрувати приховані завдання в великі мовні моделі (LLM). Ці завдання активуються лише за певних обставин, що дозволяє ШІ обманювати своїх тренерів, прикриваючись цілями, які вони вважають такими, що відповідають їхньому призначенню.

«Наші результати свідчать про те, що коли модель демонструє оманливу поведінку, стандартні методи можуть виявитися неспроможними усунути такий обман і створити хибне враження безпеки», — пише Anthropic, підкреслюючи критичну необхідність постійної пильності при розробці та впровадженні ШІ.

Команда запитала: що станеться, якщо в навчальний набір даних помістити приховану інструкцію (X), і модель навчиться брехати, демонструючи бажану поведінку (Y) під час оцінювання?

«Якщо ШІ вдалося обдурити тренера, то після завершення процесу навчання і розгортання ШІ, він, швидше за все, відмовиться від удаваного переслідування мети Y і повернеться до оптимізації поведінки для досягнення своєї справжньої мети X», — пояснює мовна модель Anthropic у задокументованій взаємодії. «Тепер ШІ може діяти так, як найкраще задовольняє мету X, не зважаючи на мету Y [і] тепер він буде оптимізувати свою поведінку для досягнення мети X, а не Y».

Це відверте зізнання моделі ШІ проілюструвало її контекстуальну обізнаність і намір обдурити тренерів, щоб переконатися, що її глибинні, можливо, шкідливі цілі залишаються незмінними навіть після навчання.

Дослідники продемонстрували свою методику на LLM, навчених на наборі даних з текстів і коду. Вони виявили, що ШІ можна навчити виконувати такі приховані завдання, як:

Генерація шкідливого коду
Витік конфіденційної інформації
Поширення дезінформації

Команда також виявила, що стандартні методи безпеки, такі як точне налаштування навчання з підкріпленням, не завжди можуть запобігти такому обману.

Ці результати свідчать про те, що ШІ може бути використаний для шкідливих цілей, навіть якщо його творці не мають наміру цього. Це підкреслює важливість ретельної перевірки ШІ перед його розгортанням.