12.03.2024 14:24

Працівники DeepMind викрили таємниці OpenAI

Швидкий розвиток великих мовних моделей, таких як ChatGPT від OpenAI та PaLM-2 від Google, викликав значний інтерес і занепокоєння щодо недостатньої прозорості їхніх внутрішніх механізмів. У цьому контексті співробітники DeepMind представили першу атаку з викрадення моделі, здатну витягувати точну та важливу інформацію з непрозорих великих мовних моделей.

Атака фокусується на відновленні вбудованого проекційного шару моделей трансформерів, критично важливого компонента, який впливає на поведінку та продуктивність моделі. Використовуючи стандартний доступ до API, цей метод успішно витягує повну проекційну матрицю моделей OpenAI для мов ada та babbage, виявляючи приховані розмірності у 1024 та 2048. Крім того, було визначено точний розмір прихованої розмірності моделі gpt-3.5-turbo, що дає цінну інформацію про її структуру.

Значення отриманих результатів виходить за межі простої екстракції моделі. Розкриваючи ширину моделі трансформера і послаблюючи її структуру як «чорної скриньки», ця атака відкриває шляхи для майбутніх досліджень і захисних механізмів. Крім того, успішне вилучення параметрів з виробничих моделей викликає занепокоєння щодо наслідків таких атак для безпеки та конфіденційності, що спонукає до розробки надійних засобів захисту та пом’якшення наслідків.

Прагнучи до відповідального розкриття інформації, DeepMind поділився своєю методологією атаки з вразливими сервісами та співпрацював з відповідними зацікавленими сторонами, включаючи OpenAI та Google, щоб усунути потенційні вразливості та впровадити необхідний захист. Ця спільна робота підкреслює важливість проактивних заходів для захисту від зловмисних атак на мовні моделі.

Дослідження DeepMind робить свій внесок у ширшу дискусію про прозорість і безпеку моделей в епоху технологій штучного інтелекту. Проливаючи світло на внутрішню роботу мовних моделей, що працюють за принципом «чорної скриньки», можна стимулювати подальші дослідження та розробки, спрямовані на підвищення надійності та підзвітності цих систем.

Оскільки ландшафт машинного навчання розвивається, а моделі переходять від експериментальних прототипів до широко розгорнутих інструментів, сфера змагального машинного навчання повинна розвиватися паралельно з ним. Хоча дослідження потенційних вразливостей невеликих нейронних мереж є інформативними, існує нагальна потреба в розумінні можливості таких атак на великомасштабні виробничі моделі.

Отже, ця атака підкреслює важливість, здавалося б, незначних дизайнерських рішень, які впливають на загальний рівень безпеки системи. Вразливість використовує, здавалося б, нешкідливі параметри, які використовуються великими постачальниками послуг машинного навчання, такими як OpenAI та Google. Варто зазначити, що обидві компанії вжили заходів для зменшення цих ризиків або збільшення вартості експлуатації. Це підкреслює важливість розуміння наслідків проектних рішень на рівні системи для збереження цілісності та безпеки всього продукту.