BTC$29880

ETH$3666

Шукати

Alibaba представляє Qwen-VL: моделі мови технічного зору для тексту та зображень

Великі мовні моделі (LLM) привертають до себе багато уваги, тому що вони дуже добре розуміють і створюють текст. Ці моделі можуть взаємодіяти з людьми і допомагати їм краще виконувати завдання. Але є проблема — вони можуть працювати лише з текстом, а не з зображеннями чи відео. Це обмежує їхні можливості. Щоб вирішити цю проблему, дослідники створили великі моделі мови технічного зору (Large Vision-Language Models, LVLM), які можуть розуміти як текст, так і зображення.

Ці спеціальні моделі можуть допомогти вирішити реальні проблеми, пов’язані із зором. Дослідники Alibaba створили новий набір цих моделей під назвою серія Qwen-VL. Ці моделі підходять для різноманітних завдань. Одна з версій під назвою Qwen-VL-Chat може спілкуватися з людьми про зображення і навіть вести дискусії про них.

Деякі якісні зразки, створені за допомогою Qwen-VL-Chat. Qwen-VL-Chat підтримує введення декількох зображень, циклічні діалоги, багатомовні діалоги та можливості локалізації.

Ключові особливості Qwen-VL:

  • Видатна продуктивність: Qwen-VL перевершує існуючі великі моделі мови зору (LVLM) у різних тестах, включаючи субтитрування з нульового кадру, VQA, DocVQA та заземлення, на тому ж рівні моделі.
  • Багатомовна підтримка: Qwen-VL може розуміти і закріплювати як англійський, так і китайський текст на зображеннях, що робить його універсальним для двомовних розмов і діалогів.
  • Спілкування з кількома зображеннями: Ця функція дозволяє обговорювати кілька зображень, ставити до них запитання і навіть об’єднувати їх в історії з кількох зображень.
  • Точне розпізнавання та розуміння: Роздільна здатність Qwen-VL 448×448 чудово розпізнає текст, забезпечує якість документів і точне визначення обмежувальних рамок, перевершуючи роздільну здатність 224×224, що використовується в конкуруючих LVLM з відкритим вихідним кодом.