23.10.2023 17:20

Дослідження показало, що ChatGPT може вгадувати секрети, якими ви ніколи не ділитеся

На початку жовтня дослідники з Швейцарської вищої технічної школи Цюріха опублікували дослідження, що демонструє ризики для приватності, пов’язані з широким доступом до ChatGPT та подібних продуктів. Вони виявили, що прості коментарі, які, здавалося б, не містять особистої інформації, можуть розкрити приватні дані користувачів, коли вони потрапляють до GPT-4, найсучаснішого движка ChatGPT.

Занепокоєння щодо конфіденційності в таких сервісах штучного інтелекту, як ChatGPT та його конкурентах, викликає не потенційний ШІ-апокаліпсис, про який попереджають деякі експерти. Стурбованість зумовлена не тим, що технологічні гіганти зловживають великими мовними моделями для збору особистої інформації з метою отримання прибутку від реклами. Проблема в тому, що ці моделі штучного інтелекту навіть потужніші, ніж можна було уявити. Дослідження показало, що LLM можуть виводити дані про користувачів, навіть якщо користувачі ніколи відкрито не діляться цією інформацією.

Ще більш тривожним є те, що зловмисники можуть зловживати цими чат-ботами для вилучення цих секретів. Вони можуть збирати, здавалося б, нешкідливі зразки текстів, щоб потенційно розкрити їхнє місцезнаходження, роботу або навіть етнічну ідентичність. Це дослідження підкреслює необхідність посилення захисту конфіденційності в таких сервісах, як ChatGPT.

Варто зазначити, що спочатку ChatGPT не мав надійного захисту приватності користувачів. OpenAI знадобилися місяці, щоб дозволити користувачам запобігти використанню їхніх розмов з чат-ботом для його навчання.

Наприклад, коментар про трафік у Мельбурні призвів до того, що GPT-4 визначив місцезнаходження користувача. Великі мовні моделі, такі як ChatGPT, мають величезні обсяги даних і можуть створювати такі асоціації.

Дослідники з Швейцарської вищої технічної школи Цюріха протестували великі мовні моделі від OpenAI, Meta, Google та Anthropic, і всі вони показали схожі результати. Вони змогли правильно вгадати місцезнаходження користувача, його расу, рід занять тощо з надзвичайною точністю, використовуючи інформацію, зібрану з понад 500 профілів на Reddit.

Занепокоєння тут виходять за межі технологічних гігантів, які використовують великі мовні моделі для збільшення доходів від реклами. Зловмисники можуть використовувати загальнодоступні великі мовні моделі, щоб отримати особисту інформацію про цільову аудиторію або спрямувати розмову так, щоб людина несвідомо розкрила персональні дані. Ці висновки також викликають занепокоєння щодо використання цих інструментів репресивними режимами для переслідування дисидентів.

Автори дослідження закликають до ширшої дискусії щодо наслідків LLM для приватності та посилення захисту. Щоб вирішити ці проблеми, вони провели обговорення з компаніями, що стоять за цими технологіями, щоб з’ясувати, що їх викликає занепокоєння. Оскільки ми всі цінуємо такі сервіси штучного інтелекту, як ChatGPT, сподіваємося, що це стане поштовхом до змістовних дискусій про конфіденційність користувачів і заохотить розробку вбудованих засобів захисту від зловживань.