
30.07.2023 11:58
Новий набір даних для тестування штучного інтелекту та обчислювальний підхід
Люди добре вміють розмірковувати, і це відрізняє нас від інших живих істот. Міркування включає в себе асоціативне мислення та логічні висновки. Один із тривіальних способів міркувати – ставити запитання: що, коли, де і чому. Ці міркування можуть привести до нових відкриттів та інноваційних ідей.
А тепер уявіть, що ви застрягли в процесі написання власної наукової роботи і стикаєтеся з труднощами в постановці правильних цікавих запитань. Через зростаючі обсяги наукових робіт і фахових статей традиційний процес більше не є можливим, оскільки він забирає багато часу. Читання наукових статей викликає запитання і включає в себе тестування та глибокі роздуми, які вимагають повноцінних міркувань. Щоб відповісти на такі природні складні питання, дослідники з LG пропонують підхід Question Answering on Scientific Articles (QASA), який включає в себе повне когнітивне міркування.
Дослідники розробили 3-крокову схему, яка допоможе читачам і авторам ставити запитання, читаючи всю наукову статтю, а не лише анотацію. По-перше, читач може ставити складні поверхневі, тестові та глибинні запитання. По-друге, ці запитання і відповіді далі збираються і порівнюються з питаннями, поставленими читачами-експертами. Нарешті, читачам і авторам пропонується запропонувати свої багатогранні розгорнуті відповіді на зібрані запитання.
Дослідники стверджують, що QASA містить 1798 пар питань до статей зі штучного інтелекту/математичного моделювання, про які просили постійні читачі. У середньому кожна стаття містить від 15,1 до 29 запитань і 39,4% запитань на рівень глибокого міркування. Їхній підхід до QASA включає асоціативний відбір для вилучення релевантної інформації з абзаців, створення доказового обґрунтування, щоб зрозуміти лише доказове обґрунтування з кожного вилученого абзацу, і систематичну композицію, щоб пов’язати доказові обґрунтування з вичерпною відповіддю.
Для того, щоб забезпечити реалістичність запитань, респонденту дозволялося обирати документи на власний розсуд і обирати, чи хоче він прочитати всі розділи, так зване глибоке читання, чи один конкретний розділ, так зване поверхове читання, і підготувати запитання, які не містили б відповідей на них. Респондентам також було надано можливість вибрати статті з тих, над якими працювали автори запитань, щоб надати релевантні відповіді. Респонденти повинні були відповісти на запитання у вигляді розгорнутої відповіді на основі власних доказових обґрунтувань з обраних параграфів.
Дослідники застосували схему парного оцінювання, коли експерти порівнюють дві відповіді на одне й те саме запитання. Вони надали експертам дві відповіді, одну зі схеми QASA, а іншу – з InstructGPT. Відповіді, отримані за допомогою повного стеку QA, як правило, є більш повними та обґрунтованими, ніж відповіді, отримані за допомогою InstructGPT.
Підхід QASA передбачає моделювання кожної підзадачі за допомогою попередньо навчених мовних моделей (LM) з багатозадачними інструкціями. Публічні та синтетичні дані можуть слугувати тестовим майданчиком для QASA, забезпечуючи повноцінне когнітивне міркування над науковими статтями та рукописами. Це полегшить зусилля з пошуку і переранжування відповідної інформації для читання і обмеження корисної інформації вручну.