BTC$29880

ETH$3666

Шукати

#LLM

Hайбільший попередньо навчений LLM з пошуком перед налаштуванням інструкцій

Команда дослідників з Nvidia та Університету Іллінойсу в Урбане-Шампейне представила захоплюючий прорив у сфері мовних моделей. Представляємо вам Retro 48B — гіганта серед мовних моделей, який може похвалитися 48 мільярдами параметрів, що є значним стрибком у порівнянні з попередніми моделями, доповненими пошуком, такими як Retro (7,5 мільярдів параметрів).

Lemur для гармонізації природної мови та коду для мовних агентів

У широкому контексті інтелектуальні агенти — це автономні вирішувачі проблем, здатні сприймати, виносити судження і діяти на основі даних, зібраних з навколишнього середовища. Нещодавні застосування цієї концепції показали перспективність розробки мовних агентів, здатних виконувати широкий спектр складних завдань, використовуючи природну мову в різних контекстах.

Як групування характеристик людини покращує інтерпретацію нейронних мереж

У нещодавній статті під назвою "На шляху до моносемантичності: Декомпозиція мовних моделей за допомогою вивчення словників", дослідники вирішили проблему розуміння складних нейронних мереж, зокрема мовних моделей, які знаходять широке застосування в різних додатках.

Як за допомогою ШІ прийняти свою внутрішню відьму та змусити мітлу літати

Mistral Trismegistus-7B — це не зовсім звична модель штучного інтелекту; це цифровий містик на базі штучного інтелекту, створений для того, щоб проводити користувачів через езотеричну, окультну та духовну сфери.

Новий підхід до тонкого налаштування мовних моделей

Дослідники з System2 Research, Кембриджського університету, Університету Монаша та Прінстонського університету досягли значних успіхів у точному налаштуванні попередньо навчених мовних моделей для створення більш ефективних мовних агентів, особливо у сфері запитально-відповідних завдань з використанням пошукового API Google.

Новий метод, який перетворює довгий контекст на дерево підсумкових даних

Впровадження архітектури трансформерів завдяки механізму самонавчання, збільшенню розміру моделі та обсягу даних для попереднього навчання значно покращило роботу з великими мовними моделями.

Генерування зображень у контексті з мультимодальними LLM

Останні досягнення значно покращили генерацію зображень з текстових описів і синтез нових зображень шляхом поєднання тексту і зображень. Однак з'явився новий рубіж: генерування зображень з узагальнених вхідних даних мовою технічного зору, особливо тих, що включають складні описи сцен з багатьма об'єктами і людьми.

Мультиагентний підхід до моделювання трафіку

Авторегресійні мовні моделі продемонстрували свою здатність передбачати наступне підслово в реченні, не покладаючись на заздалегідь визначену граматику чи правила синтаксичного аналізу. Цей підхід було поширено на області безперервних даних, такі як генерація аудіо та зображень, де дані представлені у вигляді дискретних токенів, подібно до словників, що використовуються в мовних моделях.

Вдосконалення мовних моделей за допомогою підказок до аналогій для покращення міркувань

Останніми роками мовні моделі продемонстрували вражаючі навички розуміння та генерування тексту, подібного до людського. Однак, незважаючи на їхні чудові мовні можливості, ці моделі часто відстають у складних міркувальних завданнях.

Подолання галюцинацій в ШІ

Завдяки додатковому попередньому навчанню з використанням пар зображення-текст або точному налаштуванню за допомогою спеціалізованих наборів даних з візуальними інструкціями, великі мовні моделі можуть перейти в область мультимодальних можливостей, прокладаючи шлях до надійних великих мультимодальних моделей.

Великі мовні моделі (LLM) можуть видавати конфіденційну інформацію, навіть якщо вона була видалена з даних, на яких вони навчалися

Дослідники з Університету Північної Кароліни в Чапел-Хілл виявили, що навіть найсучасніші методи редагування моделей не можуть повністю видалити фактичну інформацію з великих мовних моделей (LLM).