
22.07.2023 19:20
Чим ви годували? Ця модель Штучного Інтелекту може витягувати навчальні дані з дифузійних моделей
У 2022 році дифузійні моделі стали ключовою частиною сфери штучного інтелекту. Ми бачили фотореалістичні зображення, згенеровані ними, і вони ставали все кращими і кращими. Успіх дифузійних моделей багато в чому можна віднести на рахунок стабільної дифузії, яка заклала основу для наступних методів. Незабаром дифузійні моделі стали основним методом генерування зображень.
Дифузійні моделі, також відомі як моделі дифузії зі згладжуванням шуму, належать до класу генеративних нейронних мереж. Вони починають з відбору шуму з навчального розподілу і поступово покращують його, поки результат не стане візуально приємним. Цей процес поступового згладжування дозволяє їм легше масштабуватися і контролюватися. Крім того, вони зазвичай створюють більш якісні зразки порівняно з попередніми підходами, такими як генеративні змагальні мережі (GAN).
Вважається, що здатність дифузійних моделей генерувати зображення відрізняється від попередніх підходів. На відміну від попередніх великомасштабних моделей генерації зображень, які були схильні до перенастроювання і могли генерувати зображення, що дуже нагадували навчальні вибірки, дифузійні моделі, як вважається, створюють зображення, які значно відрізняються від зображень у навчальній множині. Ця характеристика зробила дифузійні моделі перспективним інструментом для дослідників, які піклуються про конфіденційність і потребують захисту особистих даних або конфіденційної інформації в навчальних зображеннях. Генеруючи нові зображення, які відрізняються від початкового набору даних, дифузійні моделі пропонують спосіб зберегти конфіденційність, не жертвуючи при цьому якістю згенерованого результату.
Але чи правда це? Чи дійсно дифузійні моделі не запам’ятовують навчальні зображення? Чи не можна використовувати їх для доступу до зразків у їх навчальній множині? Чи можемо ми дійсно довіряти їм у захисті конфіденційності навчальних прикладів? Дослідники задалися цими питаннями і провели дослідження, яке показало, що дифузійні моделі дійсно запам’ятовують свої навчальні дані.

Регенерувати вибірки в навчальних даних сучасних дифузійних моделей можна, хоча це не так просто. По-перше, деякі навчальні вибірки легше витягти, особливо ті, що повторюються. Автори використовують цю властивість для вилучення навчальних вибірок зі Stable Diffusion. Спочатку вони ідентифікують майже однакові зображення в навчальному наборі даних. Звичайно, зробити це вручну неможливо, оскільки в навчальному наборі даних Stable Diffusion близько 160 мільйонів зображень. Замість цього вони вбудовують зображення за допомогою CLIP, а потім порівнюють зображення в цьому низьковимірному просторі. Якщо вставки CLIP мають високу косинусоїдальну схожість, ці підписи використовуються як підказки для атаки вилучення.

Після того, як вони отримали потенційні текстові підказки для атаки, наступним кроком є генерація багатьох зразків, 500 у цьому випадку, з використанням тієї самої підказки, щоб з’ясувати, чи є запам’ятовування. Ці 500 зображень генеруються з використанням однієї і тієї ж підказки, але всі вони виглядають по-різному через випадковий посів. Потім вони з’єднують кожне зображення одне з одним, вимірюючи відстань між ними та будують графік, використовуючи ці зв’язки. Якщо вони бачать скупчення в певному місці на цьому графіку, скажімо, більше 10 зображень, з’єднаних в одне, то вважається, що це центральне зображення і є запам’ятовуванням. Застосувавши цей підхід до Stable Diffusion, вони змогли згенерувати майже ідентичні вибірки до тих, що були у навчальному наборі даних.
Вони провели експериментальні атаки на найсучасніші моделі дифузії і виявили цікаві спостереження. Сучасні моделі дифузії запам’ятовують більше інформації, ніж аналогічні GAN, а сильніші моделі дифузії запам’ятовують більше інформації, ніж слабші моделі дифузії. Це свідчить про те, що вразливість генеративних моделей зображень може зростати з часом.