BTC$29880

ETH$3666

Шукати

#Дослідження

Розблокування потокового нескінченного ретенційного потенціалу SirLLM

Дослідники з Шанхайського університету Цзяо Тун та Університету Ухань представляють Streaming Infinite Retentive LLM (SirLLM) — модель, яка дозволяє великим мовним моделям підтримувати розширену пам’ять у діалогах нескінченної довжини без необхідності точного налаштування.

ШІ та теорія розуму: чи можуть GPT-4 та LLaMA-2 мислити як люди?

Дослідники з Університетського медичного центру Гамбург-Еппендорф, Італійського технологічного інституту в Генуї, Університету Тренто та інших інституцій дослідили, чи здатні великі мовні моделі (LLM), такі як GPT-4, GPT-3.5 та LLaMA2-70B, розуміти людські думки та емоції.

AlphaFold 3 дає поштовх для відкриття нових ліків

Isomorphic Labs та Google DeepMind спільно представили передову систему штучного інтелекту AlphaFold 3, яка використовує нову архітектуру на основі дифузії для точного моделювання структур різних біомолекулярних комплексів, включаючи білки, нуклеїнові кислоти, ланцюги ДНК і РНК, малі молекули, іони та модифіковані залишки.

NASGraph прискорює пошук нейронної архітектури

Традиційні методи NAS вимагали тривалого навчання для кожної архітектури-кандидата, що призводило до значних витрат часу та ресурсів. NASGraph пропонує новий підхід до мінімізації обчислювального навантаження на мережеві сховища, що може змінити ситуацію.

Менше ніж 10% обсягу транзакцій зі стейблкоїнами припадає на реальних користувачів

Попри те, що обсяг пропозиції на ринку стейблкоїнів сягає $150 млрд, лише близько 10% транзакцій з цими криптовалютами здійснюються реальними людьми. Це висновок нового дослідження, проведеного Visa та платформою даних Allium Labs.

Удосконалення моделей трансформерів за допомогою заповнюючих токенів

Використання токенів-заповнювачів у мовних моделях, заснованих на трансформерах, є помітним кроком вперед у дослідженнях ШІ, оскільки це дає змогу усунути ключові обмеження та розширити обчислювальні можливості.

Пекінський університет та Microsoft співпрацюють над створенням ефективних довгих контекстних вбудовувань

Спільними зусиллями Пекінського університету та Microsoft було представлено LongEmbed — метод розширення контекстного вікна вбудовування моделей до 32 000 токенів без перенавчання. LongEmbed унікально поєднує інтерполяцію позиції та RoPE для обробки довших текстових послідовностей, зберігаючи при цьому базову продуктивність на коротких вхідних даних.

Дослідження теоретичних основ та застосування дифузійних моделей в ШІ

Дифузійні моделі стали потужною альтернативою у сфері генеративного ШІ, продемонструвавши неабиякий успіх у різних галузях, таких як комп'ютерний зір, аудіосинтез, навчання з підкріпленням та обчислювальна біологія.