29.11.2023 14:35

DeepMind представила векторні квантовані моделі

Постійний технологічний прогрес, особливо в галузі штучного інтелекту, дозволяє комп’ютерам імітувати людське мислення і процеси навчання. Нещодавні досягнення в галузі штучного інтелекту, машинного навчання (ML) і глибокого навчання (DL) помітно покращили різні сфери, такі як охорона здоров’я, фінанси та освіта. Великі мовні моделі (LLM) привернули значну увагу завдяки своїм чудовим можливостям, подібним до людських, і чудово справляються з різноманітними завданнями – від відповідей на запитання до генерації коду.

LLM піддаються точному налаштуванню за допомогою навчання з підкріпленням – парадигми машинного навчання, де агент розвиває навички прийняття рішень, взаємодіючи з навколишнім середовищем, прагнучи максимізувати кумулятивну винагороду з часом. Хоча навчання з підкріпленням на основі моделей виявилося перспективним у плануванні сценаріїв, його успіхи були обмежені повністю контрольованим і детермінованим середовищем.

У нещодавньому дослідженні команда DeepMind запропонувала нову стратегію планування з використанням векторних квантованих моделей для вирішення проблем у непередбачуваних і частково спостережуваних середовищах. Цей підхід передбачає кодування майбутніх спостережень у дискретні латентні змінні за допомогою векторного квантованого варіаційного автокодера (VQVAE) та перехідної моделі, що дозволяє планувати як майбутні спостереження, так і дії для випадкових або частково спостережуваних контекстів.

Дискретні автокодери були використані для фіксації різних потенційних результатів дії в умовах стохастичного середовища. Ці автокодери, нейронні мережі, які кодують і декодують вхідні дані, допомогли зобразити безліч потенційних результатів, що виникають в результаті поведінки агента в стохастичному контексті.

Щоб спростити планування в таких умовах, команда використала випадковий варіант пошуку по дереву Монте-Карло, популярного підходу до прийняття рішень. Цей спосіб враховує невизначеність навколишнього середовища, включаючи дискретні латентні змінні, що вказують на можливі реакції середовища разом з діями агента. Комплексний підхід враховує складнощі, що виникають через часткову спостережливість і випадковість.

Оцінка підходу продемонструвала його перевагу над офлайн-варіантом MuZero, системою навчання з підкріпленням, у стохастичній інтерпретації шахової партії. Ця інтерпретація вводить невизначеність через супротивника, визнаючи його невід’ємною частиною середовища. Успішна реалізація DeepMind Lab продемонструвала масштабованість підходу, довівши його адаптивність та ефективність у роботі зі складними та динамічними сценаріями, що виходять за рамки традиційних настільних ігор.

Отже, цей метод навчання з підкріпленням на основі моделей розширює ефективність повністю спостережуваних детермінованих середовищ до частково спостережуваних стохастичних умов. Інтеграція дискретних автокодерів і версії пошуку шляхом перебору випадкових алгоритмів Монте-Карло відображає глибоке розуміння викликів, що виникають у невизначених середовищах, підвищуючи продуктивність у практичних додатках.