03.10.2023 09:27

Великі мовні моделі (LLM) можуть видавати конфіденційну інформацію, навіть якщо вона була видалена з даних, на яких вони навчалися

Дослідники з Університету Північної Кароліни в Чапел-Хілл виявили, що навіть найсучасніші методи редагування моделей не можуть повністю видалити фактичну інформацію з великих мовних моделей (LLM).

Після того, як модель навчена на великому наборі даних, вона може генерувати текст, що містить інформацію, яка не була явно включена в дані навчання. Це відбувається тому, що модель навчається розпізнавати закономірності в даних, які можуть бути використані для відновлення інформації, яка була видалена.

Незважаючи на те, що слово «Іспанія» було «видалено» з ваги моделі, його все одно можна згадати, використовуючи переформульовані підказки. Джерело: Patil, et. al., 2023

У своєму дослідженні дослідники використовували модель GPT-J для генерування тексту на основі набору даних, який включав конфіденційну інформацію. Вони виявили, що модель могла генерувати текст, який містив конфіденційну інформацію, навіть після того, як ця інформація була видалена з даних навчання.

Дослідники також виявили, що зловмисники можуть використовувати підказки, щоб змусити модель генерувати конфіденційну інформацію. Це означає, що навіть якщо модель захищена від випадкового виведення конфіденційної інформації, вона все ще може бути вразлива для цілеспрямованих атак.

Що це означає для майбутнього LLM?

Це дослідження має важливі наслідки для майбутнього LLM.

Якщо LLM не можна повністю очистити від конфіденційної інформації, вони можуть бути використані для виведення цієї інформації зловмисниками.

Це може призвести до серйозних проблем, таких як крадіжка особистих даних або поширення дезінформації.

Дослідники UNC закликають до подальших досліджень у цій галузі, щоб розробити більш ефективні методи захисту LLM від виведення конфіденційної інформації.

Які кроки можна вжити для вирішення цієї проблеми?

Існує кілька кроків, які можна вжити для вирішення цієї проблеми:

Розробка нових методів редагування моделей, які можуть повністю видаляти фактичну інформацію з LLM.
Розробка нових методів захисту LLM від атак вилучення.
Збільшення обізнаності про потенційні ризики, пов’язані з використанням LLM.

Нагадаємо про поради щодо захисту вашої інформації під час використання Bard.