05.09.2023 13:45

Nougat від Meta AI: візуальний трансформер для наукового розпізнавання текстів

Зі стрімким розвитком штучного інтелекту такі підгалузі, як обробка природної мови, генерація природної мови та комп’ютерний зір, набули величезної популярності завдяки широкому спектру застосувань. Серед них оптичне розпізнавання символів (Optical Character Recognition, OCR) є добре відпрацьованою і широко дослідженою галуззю комп’ютерного зору. Оптичне розпізнавання символів знаходить застосування в різних сферах, включаючи оцифрування документів, розпізнавання рукописного тексту та ідентифікацію тексту на сцені. Одним із цікавих аспектів розпізнавання, який привертає значну увагу науковців, є розпізнавання математичних виразів.

Формат Portable Document Format (PDF) є поширеним форматом для зберігання наукових знань, який часто зустрічається в книгах і наукових журналах. На PDF припадає 2,4% даних в Інтернеті, і він є поширеним засобом розповсюдження документів. Однак вилучення інформації з PDF-файлів, особливо коли йдеться про спеціалізований контент, наприклад, наукові статті, може бути складним завданням. Коли такі статті конвертуються в PDF, семантична інформація, що міститься в математичних виразах, часто втрачається.

У відповідь на ці виклики команда Meta AI представила рішення, відоме як “Nougat”, що розшифровується як “нейрооптичне розуміння академічних документів” (Neural Optical Understanding for Academic Documents). Його основна мета — перетворити ці документи на мову розмітки, зробивши їх більш доступними та машинозчитуваними.

Щоб продемонструвати ефективність цього підходу, команда курувала свіжий набір даних академічних публікацій. Цей метод є практичним рішенням для підвищення доступності наукових знань у цифрову епоху. Він долає розрив між текстом, який легко читається людиною, і текстом, який може обробляти та аналізувати комп’ютер. Дослідники, викладачі та всі, хто цікавиться науковою літературою, можуть отримати доступ до наукових робіт і працювати з ними більш ефективно за допомогою Nougat. По суті, Nougat — це модель на основі трансформатора, створена для перетворення зображень сторінок документів, зокрема PDF-файлів, на добре структурований текст розмітки.

Серед помітних досягнень команди можна виділити наступні:

Випуск попередньо навченої моделі: Команда представила попередньо навчену модель, призначену для перетворення PDF-файлів у спрощену мову розмітки. Ця попередньо навчена модель знаходиться у відкритому доступі на GitHub, доступна для дослідницької спільноти і доступна для всіх зацікавлених, разом з відповідним кодом.
Конвеєр створення наборів даних: У дослідженні розроблено метод створення наборів даних, які пов’язують PDF-документи з відповідним вихідним кодом. Цей підхід до створення наборів даних має першорядне значення для оцінки та покращення продуктивності моделі Nougat. Крім того, він є перспективним для майбутніх досліджень у галузі аналізу документів і практичних застосувань.
Опрацювання, орієнтоване на зображення: Особливістю Nougat є її здатність функціонувати виключно на зображенні сторінки. Ця універсальність дає змогу видобувати вміст з різних джерел, навіть якщо оригінальні документи існують лише у форматі зображень. Nougat може ефективно обробляти відскановані документи і книги, що розширює його можливості і застосування.