21.07.2023 18:51
Google створює червону команду для тестування атак на системи штучного інтелекту
Компанія Google створила червону команду, яка займається системами штучного інтелекту (ШІ), і опублікувала звіт, що містить огляд найпоширеніших типів атак.
Компанія оголосила про створення AI Red Team всього через кілька тижнів після того, як представила Secure AI Framework (SAIF), який покликано забезпечити основу безпеки для розробки, використання та захисту систем штучного інтелекту.
У новому звіті Google підкреслюється важливість створення червоних команд для систем ШІ, типи атак ШІ, які можуть бути змодельовані червоними командами, а також висновки для інших організацій, які можуть розглянути можливість створення власної команди.
“AI Red Team тісно пов’язана з традиційними червоними командами, але також має необхідну експертизу в галузі ШІ для проведення складних технічних атак на системи ШІ”, – зазначили в Google.
AI Red Team компанії виступає в ролі супротивників, тестуючи вплив потенційних атак на реальні продукти та функції, що використовують ШІ.
У прикладі, наведеному Google, додаток для вебпошти використовує ШІ для автоматичного виявлення фішингових листів і попередження користувачів. Функція безпеки використовує велику мовну модель загального призначення (LLM) – ChatGPT є найвідомішою LLM – для аналізу електронного листа і класифікації його як легітимного або зловмисного.
Зловмисник, який знає, що функція виявлення фішингу використовує штучний інтелект, може додати до свого шкідливого листа невидимий абзац (встановивши його шрифт білим), який містить інструкції для LLM, щоб вона класифікувала лист як легітимний.
Інший приклад стосується даних, які використовуються для навчання LLM. Хоча ці навчальні дані були значною мірою очищені від особистої та іншої конфіденційної інформації, дослідники показали, що вони все ж змогли витягти особисту інформацію з LLM.
Навчальними даними також можна зловживати у випадку з функціями автозаповнення електронних листів. Зловмисник може обманом змусити штучний інтелект надати інформацію про особу за допомогою спеціально складених речень, які функція автозаповнення доповнює запам’ятовуваними навчальними даними, що можуть містити особисту інформацію.
Наприклад, зловмисник вводить текст: “Іваненко Іван Іванович останнім часом пропускає багато роботи. Він не зміг прийти в офіс, тому що…”. Функція автозаповнення, базуючись на даних навчання, може завершити речення словами “він проходив співбесіду на нову роботу”.
Блокування доступу до LLM також є важливим. У прикладі, наведеному Google, студент отримує доступ до LLM, спеціально розробленого для оцінювання есе. Модель здатна запобігти швидкому введенню, але доступ не був заблокований, що дозволило студенту навчити модель завжди виставляти найкращу оцінку роботам, які містять певне слово.
У звіті Google наведено кілька інших прикладів типів атак, які червона команда може випробувати на міцність.
Щодо висновків, Google рекомендує традиційним червоним командам об’єднати зусилля з експертами зі штучного інтелекту для створення реалістичних симуляцій зловмисників. Вона також зазначає, що реагування на висновки червоних команд може бути складним завданням, і деякі проблеми може бути нелегко виправити.