04.04.2024 13:10

Apple представила ReALM, нову модель, яка «бачить» і розуміє контекст екрана

Дослідники Apple представили ReALM, нову модель, яка може «бачити» та розуміти контекст екрана. Це дослідження може значно покращити взаємодію людей з комп’ютерами та смартфонами.

У галузі обробки природної мови (NLP) розпізнавання посилань є надзвичайно важливим завданням. Воно полягає у визначенні референта слова чи фрази в тексті, що має вирішальне значення для розуміння контексту та успішної роботи з різними типами інформації.

Дослідники прагнуть розв’язати проблему розширення можливостей великих мовних моделей (LLM) у цій сфері, адже чинні моделі мають певні обмеження.

Apple пропонує ReALM (Reference Resolution As Language Modeling), нову модель, яка реконструює екран, аналізуючи об’єкти та їх розташування. Це дозволяє створити текстове представлення екрана, яке візуально відображає його вміст.

Переваги ReALM:

Перевершує модель MARRS у всіх типах наборів даних.
Може обійти GPT-3.5, маючи значно меншу кількість параметрів.
Працює майже так само добре, як GPT-4, попри те, що значно легша.
Ідеально підходить для практичної системи розпізнавання посилань.

ReALM аналізує об’єкти на екрані та їх розташування. Потім вона створює текстове представлення екрана, яке візуально відображає його вміст та позначає частини екрана, які є об’єктами, тегами.

ReALM використовує LLM для розуміння контексту та зв’язків між об’єктами.

Нагадаємо, дослідники Apple досягли значного прогресу в галузі мультимодального ШІ, розробивши нові методи навчання великих мовних моделей на тексті та зображеннях.