
14.08.2023 11:25
Нова модель ШІ, яка перевершує точність NER ChatGPT
Великі мовні моделі, такі як ChatGPT, дійсно добре розуміють речі, але вони дорогі у використанні. Особливо у таких важливих сферах, як охорона здоров’я, нам потрібно знати, як вони працюють. Люди хочуть зробити їх дешевшими і простішими для розуміння, тому вони використовують так званий тюнінг інструкцій. Так створюються менші моделі, які діють як ChatGPT. Такі моделі, як Alpaca і Vicuna, добре зарекомендували себе, але вони все ще потребують вдосконалення, особливо для певних завдань.
Оскільки обчислювальних потужностей не так вже й багато, простий метод може створити лише базову копію оригінальної великої мовної моделі для всіх видів завдань. Отже, це дослідження пробує дещо інше. Там розглядається цільова дистиляція, де автори тренують менші моделі для певного типу завдань, таких як видобування відкритої інформації. Вони хочуть змусити ці менші моделі працювати так само добре, як і великі, але тільки для цієї конкретної задачі. Для перевірки цієї ідеї, використали розпізнавання іменованих сутностей (named entity recognition, NER), що є основною проблемою в обробці мови. Автори виявили, що навіть великі мовні моделі все ще потребують покращення розпізнавання певних типів сутностей, навіть з великою кількістю навчальних даних.
Дослідники з Університету Південної Каліфорнії та Microsoft Research знайшли спосіб використати ChatGPT для вирішення цієї проблеми. Вони використали метод під назвою “налаштування інструкцій”, щоб навчити модель розуміти різні типи речей, навіть якщо для них немає прикладів. Вони створили нову модель під назвою UniversalNER, яка може розпізнавати багато різних типів речей у різних галузях, таких як медицина, програмування та право.
Вони протестували UniversalNER на багатьох різних завданнях і виявили, що вона краща за інші подібні моделі. У деяких випадках він навіть кращий за ChatGPT. UniversalNER може дізнаватися про нові речі і розуміти їх, навіть маючи лише невелику кількість тренувань. Дослідники поділяться своїм методом, даними та моделлю, щоб інші могли дізнатися про це більше.