
27.09.2023 10:43
NExT-GPT: мультимодальна модель ШІ з відкритим вихідним кодом, яка може обійти текстових гігантів
NExT-GPT – це мультимодальна модель великої мови (LLM) з відкритим вихідним кодом, яка може обробляти і генерувати текст, зображення, аудіо та відео. Це означає, що вона може надавати більш природну взаємодію, ніж текстові моделі, такі як ChatGPT.
Як працює NExT-GPT?
NExT-GPT працює, використовуючи окремі модулі для кодування вхідних даних у текстові представлення, які може обробити основна мовна модель. Дослідники також запровадили техніку під назвою «налаштування інструкцій з перемиканням модальностей» для покращення здатності до крос-модального міркування.
Кожен тип вхідних даних перетворюється на вставки, які розуміє мовна модель. Потім мовна модель може виводити текст відповіді, а також спеціальні маркери сигналів для запуску генерації в інших модальностях.
Наприклад, маркер у відповіді вказує відеодекодеру створити відповідний відеовихід. Використання системою спеціальних токенів для кожної модальності введення та виведення дозволяє гнучко конвертувати будь-яку модальність у будь-яку.
NExT-GPT досягає цього гнучкого перетворення «будь-який до будь-який», тренуючи лише 1% від загальної кількості параметрів.
Це означає, що модель може бути ефективною, навіть не навчаючись на величезній кількості даних. Це може зробити її більш доступною для розробників і користувачів.
NExT-GPT є альтернативою з відкритим вихідним кодом для мультимодальних ШІ-продуктів від технологічних гігантів, таких як Google і OpenAI.
Це означає, що розробники можуть використовувати її для створення власних мультимодальних ШІ-продуктів. Це може призвести до більшої інноваційності та конкурентоспроможності в галузі ШІ.
Що робить NExT-GPT особливою?
NExT-GPT має кілька ключових особливостей, які відрізняють її від інших мультимодальних моделей ШІ:
- Вона може обробляти і генерувати текст, зображення, аудіо та відео. Це робить її більш універсальною, ніж інші моделі, які можуть обробляти лише один або два типи даних.
- Вона навчається лише на 1% від загальної кількості параметрів. Це робить її більш ефективною та доступною.
- Вона має відкритий вихідний код. Це означає, що будь-хто може її використовувати та модифікувати.
Потенціал для застосування
NExT-GPT має широкий спектр потенційних застосувань, включаючи:
- Розробку більш природних взаємодій між людьми та машинами.
- Створення нових форм розваг та освітніх матеріалів.
- Підвищення ефективності роботи в різних галузях.
Нагадаємо, Microsoft наділила ШІ людським мисленням за допомогою «алгоритму думок».