03.04.2024 15:08

Anthropic дослідив багатоспробний джейлбрейк

Нещодавні викриття про техніку джейлбрейку з багатьма спробами пролили світло на критичний аспект великих мовних моделей, який створює потенційні ризики у сфері ШІ. Дослідження Anthropic щодо цього методу злому та його наслідків є одночасно інформативними та тривожними.

Техніка багатоспробного джейлбрейку використовує розширене контекстне середовище великих мовних моделей, що дозволяє включати великі обсяги тексту в конкретному форматі, щоб викликати потенційно шкідливі реакції з боку цих моделей. Дослідження Anthropic щодо цієї вразливості охоплює не лише їхні власні моделі, але й моделі, розроблені іншими компаніями, що займаються розробкою технологій ШІ, що підкреслює широке поширення цієї проблеми.

Зі збільшенням кількості спроб понад певну кількість зростає і відсоток шкідливих реакцій на цільові підказки, пов’язані з насильницькими або ненависницькими висловлюваннями, шахрайством, дискримінацією та регульованим контентом (наприклад, висловлюваннями, пов’язаними з наркотиками або азартними іграми). Для цієї демонстрації використовується модель Claude 2.0. Джерело

Рішення опублікувати це дослідження заслуговує на похвалу, оскільки воно відображає прихильність Anthropic до прозорості та співпраці в межах ШІ-спільноти. Ділячись своїми висновками та впроваджуючи заходи щодо пом’якшення наслідків, вони прагнуть прискорити прогрес у подоланні цієї вразливості та сприяти формуванню культури спільної відповідальності серед розробників та дослідників великих мовних моделей.

Простота і водночас ефективність багатоспробного джейлбрейку підкреслює складнощі, пов’язані із забезпеченням безпеки та захисту LLM. Зусилля Anthropic, спрямовані на запобігання цьому методу за допомогою оперативних модифікацій і методів класифікації, демонструють проактивний підхід до вирішення проблем, пов’язаних з новими загрозами у сфері ШІ-технологій.

Висновок, який можна зробити з цього дослідження, очевидний: безперервна еволюція великих мовних моделей, пропонуючи численні переваги, водночас створює нові виклики та вразливості. Оскільки моделі стають все більш потужними, для розробників і дослідників стає вкрай важливим визначати пріоритети в заходах безпеки і пом’якшувати потенційні загрози, які можуть мати далекосяжні наслідки.