01.10.2024 13:56
Відокремлений підрозділ MIT Liquid презентував свою першу серію моделей генеративного ШІ
Стартап Liquid AI, заснований колишніми дослідниками MIT CSAIL, оголосив про запуск нових моделей рідких структур (LFM), що свідчить про відхід від традиційних моделей на основі трансформерів, таких як GPT. LFM побудовані на іншому архітектурному підході, оминаючи трансформерну архітектуру, представлену в дослідженні 2017 року «Увага – це все, що вам потрібно».
Замість цього Liquid розробила свої моделі, використовуючи поєднання теорії динамічних систем, обробки сигналів і числової лінійної алгебри, з метою створення універсальних моделей ШІ, які є високоефективними, адаптивними та здатними обробляти різні типи даних, включаючи текст, відео, аудіо та дані часового ряду. Ці моделі, побудовані на основі базових принципів, покликані перевершити трансформерні моделі, використовуючи при цьому значно менше ресурсів.
LFM доступні у трьох варіантах: LFM 1.3B, LFM 3B і найбільша модель LFM 40B MoE (Mixture-of-Experts). Версія LFM 1.3B вже випередила моделі Llama 3.2-1.2B від Meta та Phi-1.5 від Microsoft у низці тестових середовищ, включаючи Massive Multitask Language Understanding (MMLU), позначивши себе як першу не трансформерну архітектуру, що досягла такого успіху.
Однією з ключових переваг LFM від Liquid є ефективність використання пам’яті. Модель LFM-3B потребує лише 16 ГБ пам’яті порівняно з 48 ГБ у моделі Llama-3.2-3B від Meta. Така оптимізація дозволяє моделям обробляти об’ємні контекстні дані за допомогою меншого обсягу пам’яті, що робить їх ідеальними для таких випадків використання, як аналіз документів, чат-боти та додатки, що потребують великих обсягів послідовних даних.
Хоча моделі Liquid не є відкритими, вони доступні для тестування на таких платформах, як Liquid’s inference playground, Lambda Chat та Perplexity AI. Моделі орієнтовані на такі галузі, як фінансові послуги, біотехнології та побутова електроніка, пропонуючи ефективність роботи та мультимодальні можливості.
Liquid також готується до повноцінної презентації 23 жовтня 2024 року в Kresge Auditorium Массачусетського технологічного інституту, де компанія продемонструє свої базові моделі та поспілкується з першими користувачами для отримання зворотного зв’язку.