23.07.2024 14:35
Маніпуляції з агентами LLM за допомогою отруєння пам’яті
Нещодавні досягнення в галузі великих мовних моделей (LLM) уможливили використання агентів у таких критично важливих сферах, як фінанси, охорона здоров’я та безпілотні автомобілі. Зазвичай агенти використовують велику мовну модель для розуміння завдань і планування, часто використовуючи зовнішні інструменти, наприклад, сторонні інтерфейси для автоматизації роботи. Однак концентрація на ефективності та узагальненні призвела до того, що питання безпеки таких агентів залишилося малодослідженим. Основною проблемою для надійності таких систем є використання потенційно ненадійних баз знань, що може призвести до шкідливих реакцій, якщо моделі під час міркувань зіткнуться зі зловмисними прикладами.
Сучасні атаки на великі мовні моделі, такі як злам під час навчання та обхід системи під час тестування, неефективні проти агентів, що використовують генерації з доповненим пошуком (RAG). Здійснення зламу неможливе через використання складних процесів пошуку, тоді як атаки з використанням обхідних шляхів зі слабкими тригерами не дають змоги ефективно вилучати шкідливий контент.
Дослідники з Чиказького університету, Університету Іллінойсу в Урбана-Шампейн, Університету Вісконсін-Медісон та Каліфорнійського університету в Берклі представили розробку AgentPoison — нову атаку з використанням обхідних шляхів, націлену на універсальні агенти великих мовних моделей, які базуються на RAG. AgentPoison пошкоджує довгострокову пам’ять або базу знань шкідливими прикладами, включаючи коректні запитання, спеціальний тригер та ворожі цілі, змушуючи агента видавати шкідливі результати, якщо використовується цей тригер.
Ефективність AgentPoison була протестована на трьох типах агентів: Agent-Driver для безпілотних автомобілів, агент ReAct для наукомістких питань та EHRAgent для медичних записів. Ключовими показниками були коефіцієнт успішності атаки для пошуку (ASR-r) та коефіцієнт успішності атаки для цільової дії (ASR-a). Результати показали, що AgentPoison досяг високого показника успішності атаки з мінімальним впливом на продуктивність системи, перевершивши інші методи з показником успішності пошуку 81,2% і генеруючи цільові дії в 59,4% випадків.