04.09.2023 13:08

Складність і логічність коду відповідно до міркувань великих мовних моделей

Великі мовні моделі (LLM) з’явилися як універсальний підхід до вирішення проблем у втіленому штучному інтелекті. Коли агенти потребують глибокого розуміння семантичних хитросплетінь свого середовища для забезпечення ефективного контролю, можливості міркувань у великих мовних моделях стають ключовими у сфері вбудованого штучного інтелекту. Новітні методології, відомі як “програми мислення”, використовують мови програмування для вдосконалення системи підказок для складних міркувань. На відміну від підказок у вигляді ланцюжка думок, підказки у вигляді програми розбивають проблеми на виконувані сегменти коду, послідовно вирішуючи їх. Тим не менш, зв’язок між використанням мов програмування та розвитком мисленнєвих здібностей залишається недостатньо вивченою сферою в дослідженнях. Основне питання полягає в тому, коли підказки у вигляді програм виявляються ефективними для міркувань?

Оцінка міркувань під впливом складності (CIRS), комплексна метрика, призначена для оцінки взаємозв’язку між етапами міркувань у коді та їхнім впливом на міркування магістрів програмування, була розроблена для оцінки міркувань студентів. Мови програмування за своєю суттю перевершують серіалізовану природну мову завдяки кращому моделюванню складних структур та внутрішній логіці, орієнтованій на процедурне розв’язання проблем, що включає кілька кроків мислення. Отже, запропонована система оцінює складність коду як зі структурної, так і з логічної точки зору. Зокрема, обчислення структурної складності етапів міркувань (обґрунтувань) коду з використанням абстрактного синтаксичного дерева (АСТ). Метод використовує три показники АСТ (кількість вузлів, тип вузлів та глибину) для інкапсуляції всієї структурної інформації в АСТ, забезпечуючи глибоке розуміння структур коду.

Дослідники з Чжецзянського університету, лабораторії Донгхай та Національного університету Сінгапуру розробили новий підхід до оцінки логічної складності. Черпаючи натхнення з концепції Халстеда та Маккейба, вони поєднують складність кодування з цикломатичною складністю для оцінки операторів, операндів та потоку керування коду. Такий підхід дозволяє явно обчислити логічну складність коду.

Їхнє емпіричне дослідження з використанням запропонованої оцінки складності міркувань (CIRS) показує, що сучасні моделі великих мов (LLM) демонструють обмежене розуміння символічної інформації, такої як код. Зокрема, не всі складні кодові дані можуть бути ефективно вивчені та зрозумілі LLM. У той час як блоки коду низької складності не містять важливої інформації, блоки коду високої складності можуть створювати проблеми, що виходять за межі розуміння великих мовних моделей. Тому, щоб ефективно розвивати міркування LLM, необхідно зосередитися на кодових даних з відповідним рівнем складності з точки зору структури та логіки, що охоплюють як фундаментальні, так і складні елементи.

Дослідники представляють метод автоматичного синтезу і стратифікації даних для включення або виключення інформації з найбільш значущим аргументаційним потенціалом. Вони застосовують цей підхід у двох різних сценаріях: керуючи генерацією інструкцій для завдань, що вимагають математичного мислення, і фільтруючи кодові дані для діяльності, пов’язаної зі створенням коду. Запропонована ними стратегія перевершує базові моделі в математичному мисленні і демонструє ефективність у вирішенні проблем створення коду.

Внесок, зроблений цією публікацією, полягає в наступному:

Впровадження CIRS, нового підходу для кількісної оцінки складності міркувань у кодових даних, що пропонує точну оцінку шляхом вивчення коду як з логічної, так і зі структурної точки зору.
Емпіричний аналіз впливу різних рівнів складності, визначення оптимальної глибини мови коду, яку можуть ефективно засвоїти LLM, як ключового фактору в навичках міркувань, що спонукають програму до роздумів.
Розробка автоматизованого алгоритму синтезу та стратифікації даних, який застосовується для фільтрації даних у коді та генерації інструкцій для задач, що передбачають математичні міркування. Численні результати підтверджують ефективність запропонованого ними фреймворку.

Оскільки штучний інтелект продовжує розширювати межі можливого, постає ключове питання: як виміряти та покращити міркування великих мовних моделей (LLM)? Відповідь на це питання лежить в основі новаторської метрики, відомої під назвою Complexity-Impacted Reasoning Score, або CIRS. Цей інноваційний інструмент готовий докорінно змінити наше уявлення про здатність LLMs працювати зі складними структурами коду. Аналізуючи складний танець між структурою коду та навичками міркування, CIRS надає цінну інформацію, яка може вплинути на майбутнє ШІ.