BTC$29880

ETH$3666

Шукати

Дослідження Google DeepMind виявило недоліки критичного мислення у великих мовних моделях

Великі мовні моделі (LLM) отримали високу оцінку за свою чудову продуктивність у різних завданнях міркувань, починаючи від розв’язання проблем науки, техніки, інженерії та математики і закінчуючи генерацією коду, часто перевершуючи людські критерії. Однак вони виявляють дивовижну вразливість, коли стикаються зі зміненими умовами. Нещодавнє дослідження, проведене Google Deepmind та Стенфордським університетом, показало, що відхилення від оптимальної послідовності, тісно пов’язаної з логічним розвитком доказу істинності, може призвести до значного зниження продуктивності великих мовних моделей, причому падіння точності в деяких випадках перевищує 30%.

Щоб перевірити це явище, дослідницька група розробила новий бенчмарк під назвою R-GSM, спеціально розроблений для оцінки впливу впорядкування передумов на завдання математичних міркувань. Маніпулюючи послідовністю інформації, представленої моделям, дослідження показало, як навіть незначні зміни в розташуванні передумов можуть глибоко вплинути на здатність великих мовних моделей отримувати коректні результати. Такий підхід підкреслює складність процесу обробки інформації, яку здійснюють LLM-моделі, і демонструє обмеженість сучасних моделей в обробці вхідних даних зі змінним впорядкуванням.

Результати цієї комплексної оцінки яскраво ілюструють величину впливу впорядкування передумов на можливості міркувань великої мовної моделі. У різних найсучасніших моделях, включаючи GPT-4-turbo, GPT-3.5-turbo, PaLM 2-L і Gemini Pro, в дослідженні спостерігалося послідовне погіршення продуктивності, яке посилювалося зі зростанням складності задачі міркування. Наприклад, у бенчмарку R-GSM всі протестовані LLM продемонстрували помітне зниження точності на задачах з переупорядкуванням, причому деякі моделі показали погіршення продуктивності більш ніж на 35% порівняно з початковою точністю розв’язування задач.

Така чутливість до послідовності передумов є серйозною проблемою для майбутнього розвитку і впровадження великих мовних моделей у міркувальних додатках. Виявлена в дослідженні схильність великих мовних моделей до певного порядку передумов, хоча і відображає певною мірою людські патерни міркувань, також виявляє критичну вразливість у здатності цих моделей до обґрунтування. Дослідження припускає, що LLM, які за своєю природою призначені для лінійної обробки інформації в прямому ланцюжку, відчувають значні труднощі, коли їм доводиться здійснювати аналіз у зворотному напрямку, щоб упорядкувати інформацію в ” бажаній” послідовності.

У світлі цих висновків дослідники з Google DeepMind і Стенфордського університету виступають за переоцінку методів навчання та моделювання великих мовних моделей. Ефект порядку передумов, виявлений у цьому дослідженні, вимагає розробки більш надійних моделей, здатних підтримувати високу точність міркувань при різних варіантах розташування передумов. Цей напрямок має на меті розширити можливості міркувань великих мовних моделей і зробити їх більш адаптивними та надійними в широкому спектрі реальних застосувань.

Наслідки цього дослідження виходять за межі безпосередніх проблем точності моделей у керованих задачах. Висвітлюючи раніше недосліджений аспект поведінки LLM, це дослідження закладає основу для майбутніх досягнень у галузі ШІ, де моделі досягають успіху у вирішенні складних міркувань і є стійкими до особливостей надання даних. Вирішення проблеми ефекту порядку передумов у міру розвитку ШІ-спільноти може означати значний стрибок у розробці інтелектуальних, універсальних і надійних моделей міркувань, що відкриє нову еру можливостей штучного інтелекту.