BTC$29880

ETH$3666

Шукати

Чи можуть великомасштабні мовні моделі перевершити людей в оцінюванні тексту?

Людське оцінювання вже давно слугує основним методом аналізу якості моделей обробки природної мови та алгоритмів на основі тексту. Однак його надійність і відтворюваність часто ставилися під сумнів через властиву варіативність, яку вносять різні люди-оцінювачі, їхню суб’єктивність і різноманітні інтерпретації критеріїв оцінювання. Така непослідовність людського оцінювання може перешкоджати об’єктивному погляду на якість тексту.

Щоб вирішити ці проблеми, дослідники з Національного університету Тайваню дослідили використання великих мовних моделей (LLM) як альтернативного методу оцінювання. LLM — це складні моделі, навчені на величезних обсягах текстових даних, доступних в Інтернеті, що дозволяє їм розуміти і генерувати мову, подібну до людської. У своєму дослідженні вчені намагалися вирішити проблему відтворюваності, використовуючи LLM для оцінки якості тексту.

У своїй методології дослідники представили великим мовним моделям ті ж самі підказки, зразки та оціночні питання, які використовуються в оцінюванні людиною. Потім LLM отримали завдання генерувати відповіді, повторюючи процес, який зазвичай проводиться з людьми-оцінювачами. Такий підхід дозволив провести пряме порівняння між оцінками, отриманими людиною і великими мовними моделями, у двох різних завданнях обробки природної мови: генерація довільних історій і оцінка ворожих атак.

Включаючи великі мовні моделі в процес оцінювання, дослідники мали на меті зменшити обмеження, пов’язані з оцінюванням, яке виконує людина. Їхнє дослідження проливає світло на потенціал LLM як стандартизованого і відтворюваного методу оцінювання, пропонуючи новий погляд на постійну проблему оцінювання якості тексту в галузі обробки природної мови.

У сфері генерації історій було проведено дослідження, присвячене оцінюванню історій, створених як людьми, так і генеративною моделлю (GPT-2). Дослідники прагнули визначити, чи можуть великі мовні моделі (LLM) ефективно оцінювати історії та розрізняти наративи, написані людиною, і наративи, згенеровані моделлю.

Для цього дослідники розробили структуровану анкету, яка містила інструкції з оцінювання, згенеровані фрагменти історій та запитання для оцінювання. Ця анкета була розроблена для вимірювання чотирьох різних атрибутів: граматичної точності, послідовності, симпатії та релевантності. Оцінки збиралися за шкалою Лайкерта з п’ятьма рівнями відповідей.

У процесі людського оцінювання учасники безпосередньо відповідали на запитання анкети, зберігаючи її оригінальну форму. На відміну від цього, при оцінюванні за допомогою великої мовної моделі дослідники вводили опитувальник як підказку і отримували результати, згенеровані великою мовною моделлю. Для цього було використано чотири відомі великі мовні моделі – T0, text-curie-001, text-davinci-003 та ChatGPT. Крім того, відомі викладачі англійської мови були залучені до людського оцінювання.

Загалом 200 історій, написаних людьми, і 200 історій, згенерованих за допомогою GPT-2, були оцінені як великомасштабними мовними моделями, так і викладачами англійської мови. Результати показали, що вчителі англійської мови незмінно віддавали перевагу історіям, написаним людьми, за всіма чотирма атрибутами – граматичністю, зв’язністю, правдоподібністю та доречністю — що свідчить про їхню здатність розрізняти оповідання, створені генеративною моделлю, та оповідання, створені авторами-людьми.

Однак оцінка, надана T0 і text-curie-001, двома великими мовними моделями, не виявила чіткої переваги історіям, написаним людьми. Це свідчить про те, що ці LLM демонструють обмеження в ефективному оцінюванні якості генерації довільних історій порівняно з експертами-людьми. Зокрема, text-davinci-003 продемонстрував явну схильність до історій, написаних людьми, і ця ж тенденція спостерігалася і в ChatGPT.

Це дослідження висвітлює нюанси відмінностей у тому, як люди та LLM інтерпретують та розрізняють історії, написані людиною, та історії, згенеровані моделлю, а також у тому, як вони інтерпретують та розрізняють їх. Отримані результати підкреслюють унікальні виклики та можливості LLM в оцінюванні якості творчого текстового контенту.

Дослідники провели комплексне тестування, щоб оцінити вміння ШІ класифікувати речення. Тестування передбачало оцінку здатності ШІ класифікувати речення в умовах впливу агресивних запитів, в які вносилися незначні зміни з використанням синонімів.

Для оцінки агресивних впливів викладачі англійської мови (які представляли людську оцінку) присвоювали нижчі оцінки реченням, що зазнали атаки, порівняно з оригінальними реченнями, особливо з точки зору плавності вимови та збереження сенсу. На противагу цьому, ChatGPT виставив вищі оцінки реченням, що зазнали агресивних висловлювань, порівняно з оцінкою, яку дали люди. Крім того, ChatGPT оцінив речення з впливом агресивних висловлювань нижче, ніж їхні оригінальні аналоги, що свідчить про нюансований підхід до оцінювання. Загалом, великомасштабні мовні моделі демонстрували паралельну модель оцінювання, що свідчить про їхню схожість в оцінюванні якості речень після агресивних нападів.

Дослідники виділили чотири ключові переваги, пов’язані з оцінюванням за допомогою великомасштабних мовних моделей: відтворюваність, незалежність, швидкість, а також зменшення впливу небажаного контенту. Однак вони також відзначили певні недоліки, такі як потенційне неправильне тлумачення фактів і впровадження упередженості в процесі навчання. До того ж, відсутність емоційного розуміння в цих моделях може обмежити їхню ефективність у завданнях, пов’язаних з емоційними нюансами. Очевидно, що як людські оцінки, так і оцінки від великих мовних моделей мають різні сильні та слабкі сторони.

Дослідники дійшли висновку, що оптимальний підхід, ймовірно, передбачає гармонійне поєднання людських оцінок та оцінок масштабних моделей. Така синергія дозволить використати унікальні можливості обох методів для покращення процесу оцінювання та отримання більш комплексних результатів.