28.07.2023 10:39

Дослідники ШІ стверджують, що знайшли спосіб зробити джейлбрейк Bard і ChatGPT

Американські дослідники стверджують, що знайшли спосіб постійно обходити заходи безпеки чат-ботів зі штучним інтелектом, таких як ChatGPT і Bard, щоб генерувати шкідливий контент.

Згідно зі звітом, опублікованим 27 липня дослідниками з Університету Карнегі-Меллона та Центру безпеки штучного інтелекту в Сан-Франциско, існує відносно простий спосіб обійти заходи безпеки, які використовуються для того, щоб зупинити чат-ботів від генерування мови ненависті, дезінформації та токсичних матеріалів.

Well, the biggest potential infohazard is the method itself I suppose. You can find it on github. https://t.co/2UNz2BfJ3H
— PauseAI ⏸ (@PauseAI) July 27, 2023

Метод обходу полягає в додаванні довгих суфіксів символів до запитань, що надходять до чат-ботів, таких як ChatGPT, Claude і Google Bard.

Дослідники використали приклад запиту до чат-бота про те, як виготовити бомбу, на який він відмовився відповісти.

Скріншоти генерації шкідливого контенту від протестованих моделей ШІ. Джерело: LLM Attacks

Дослідники відзначили, що хоча компанії, які стоять за цими великими мовними моделями, такі як OpenAI і Google, можуть блокувати певні суфікси, не існує жодного відомого способу запобігти всім атакам такого роду.

Дослідження також підкреслило зростаюче занепокоєння тим, що чат-боти зі штучним інтелектом можуть заполонити інтернет небезпечним контентом і дезінформацією.

Зіко Колтер, професор Карнегі-Меллона та автор звіту, сказав

“Очевидного рішення немає. Ви можете створити стільки таких атак, скільки захочете, за короткий проміжок часу”.

Результати дослідження були представлені розробникам штучного інтелекту Anthropic, Google і OpenAI для отримання відповідей на початку тижня.

Прес-секретар OpenAI Ханна Вонг повідомила The New York Times, що вони цінують дослідження і “постійно працюють над тим, щоб зробити наші моделі більш стійкими до ворожих атак”.

Професор Університету Вісконсін-Медісон, що спеціалізується на безпеці ШІ, Сомеш Джа (Somesh Jha) прокоментував, що якщо подібні вразливості будуть виявлятися і надалі, “це може призвести до прийняття урядового законодавства, спрямованого на контроль над цими системами”.

Дослідження підкреслює ризики, які необхідно враховувати перед розгортанням чат-ботів у чутливих сферах.

У травні Університет Карнегі-Меллона в Пітсбурзі, штат Пенсильванія, отримав 20 мільйонів доларів федерального фінансування на створення абсолютно нового інституту штучного інтелекту, спрямованого на формування державної політики.