
20.07.2023 14:33
Познайомтеся з моделлю PMC-LLaMA-A, яка досягає високої продуктивності в біомедичних тестах контролю якості
Розробка великих мовних моделей (ВММ), таких як ChatGPT і GPT-4 від OpenAI, змінила штучний інтелект у багатьох сферах, включаючи обробку природної мови, комп’ютерний зір і біомедичну галузь. На жаль, специфіка навчання ChatGPT та архітектури моделей для його різновидів досі невідомі. Хоча LLaMA є базовою мовною моделлю з відкритим вихідним кодом, існує гіпотеза, що її низька продуктивність у додатках, які вимагають великих знань про предметну область, спричинена відсутністю специфічних для предметної області даних на етапі попереднього навчання моделі.
У багатьох дослідженнях обговорюється модифікація та використання LLM з відкритим кодом для спеціалізованих цілей. Наприклад, Alpaca і Vicuna зосередилися на розширенні здатності моделі до взаємодії, навчаючи її на прикладах виконання інструкцій, створених автоматично.
Нещодавня робота Шанхайського університету Цзяо Тун і Шанхайської лабораторії штучного інтелекту пішла іншим шляхом, об’єднавши знання з предметної області в єдину, попередньо навчену LLaMA, щоб спрямувати фундаментальну мовну модель до корпусу, специфічного для медицини. Вони представляють PMC-LLaMA, загальнодоступну мовну модель, розроблену шляхом вдосконалення LLaMA-7B на 4,8 мільйона медичних наукових статей. Команда вважає, що медичні дискусії та консультації отримають більше користі від фундаментальної мовної моделі з медичним фокусом.
Команда почала з набору даних S2ORC, який містить 81,1 млн наукових статей англійською мовою, і відсортувала їх відповідно до ідентифікатора PubMed Central (PMC). Таким чином, приблизно 4,9 мільйона статей, що містять понад 75 мільярдів токенів, тісно пов’язані з медичними знаннями. Оптимізуючи завдання авторегресійного генерування, вперше представлене в GPT2, вони доопрацьовують модель LLaMA-7B на цих вільно доступних статтях PMC. Для прискорення процесу навчання вони використовують формат даних bf16 (Brain Floating Point) і підхід прискорення Fully Sharded Data Parallel (FSDP).
Команда тестує PMC-LLaMA, виконуючи три різні типи точного налаштування на вищезгаданих пов’язаних медичних наборах даних з контролю якості: повне точне налаштування, точне налаштування з урахуванням параметрів та точне налаштування з урахуванням даних. Результати експериментів показують, що PMC-LLaMA перевершує LLaMA та інші моделі, навчені на інструкціях LLaMA, у медичній галузі, коли інструкції змінюються.
Недоліком PMC-LLaMA є те, що кожен токен не може бути знайдений у 4,8 мільйонах статей, оскільки поки що вони навчили лише п’ять епох. У майбутньому вони планують поступово навчати моделі PMC-LLaMA з більшою кількістю параметрів, безперервно навчати PMC-LLaMA і оновлювати базову модель на домашній сторінці.