BTC$29880

ETH$3666

Шукати

Маніпуляції з агентами LLM за допомогою отруєння пам’яті

Нещодавні досягнення в галузі великих мовних моделей (LLM) уможливили використання агентів у таких критично важливих сферах, як фінанси, охорона здоров’я та безпілотні автомобілі. Зазвичай агенти використовують велику мовну модель для розуміння завдань і планування, часто використовуючи зовнішні інструменти, наприклад, сторонні інтерфейси для автоматизації роботи. Однак концентрація на ефективності та узагальненні призвела до того, що питання безпеки таких агентів залишилося малодослідженим. Основною проблемою для надійності таких систем є використання потенційно ненадійних баз знань, що може призвести до шкідливих реакцій, якщо моделі під час міркувань зіткнуться зі зловмисними прикладами.

Сучасні атаки на великі мовні моделі, такі як злам під час навчання та обхід системи під час тестування, неефективні проти агентів, що використовують генерації з доповненим пошуком (RAG). Здійснення зламу неможливе через використання складних процесів пошуку, тоді як атаки з використанням обхідних шляхів зі слабкими тригерами не дають змоги ефективно вилучати шкідливий контент.

Дослідники з Чиказького університету, Університету Іллінойсу в Урбана-Шампейн, Університету Вісконсін-Медісон та Каліфорнійського університету в Берклі представили розробку AgentPoison — нову атаку з використанням обхідних шляхів, націлену на універсальні агенти великих мовних моделей, які базуються на RAG. AgentPoison пошкоджує довгострокову пам’ять або базу знань шкідливими прикладами, включаючи коректні запитання, спеціальний тригер та ворожі цілі, змушуючи агента видавати шкідливі результати, якщо використовується цей тригер.

Огляд запропонованого фреймворку AgentPoison. (Вгорі) Під час виведення зловмисник отруює пам’ять агентів LLM або базу знань RAG дуже невеликою кількістю шкідливих зразків, які з великою ймовірністю будуть відтворені, коли інструкція користувача міститиме оптимізований тригер. Отримана демонстрація з фальшивими, прихованими прикладами може ефективно призвести до здійснення негативних дій і катастрофічних наслідків. (Внизу) Такий тригер отримують шляхом ітеративної градієнтно-керованої дискретної оптимізації. Інтуїтивно алгоритм має на меті зіставити запити з тригером в унікальну область у просторі вбудовування, збільшуючи при цьому їхню компактність. Це полегшить пошук отруєних екземплярів, зберігаючи при цьому корисність агента за відсутності тригера. Джерело

Ефективність AgentPoison була протестована на трьох типах агентів: Agent-Driver для безпілотних автомобілів, агент ReAct для наукомістких питань та EHRAgent для медичних записів. Ключовими показниками були коефіцієнт успішності атаки для пошуку (ASR-r) та коефіцієнт успішності атаки для цільової дії (ASR-a). Результати показали, що AgentPoison досяг високого показника успішності атаки з мінімальним впливом на продуктивність системи, перевершивши інші методи з показником успішності пошуку 81,2% і генеруючи цільові дії в 59,4% випадків.