20.11.2023 15:28

Великий набір даних для синтетичного багатомовного пошуку з 28 мільйонами навчальних пар на 33 мовах

Дослідники з Google Research, Google DeepMind та Університету Ватерлоо представили SWIM-IR – навчальний набір даних для синтетичного пошуку, що охоплює 33 мови. Це вирішує проблему обмеженої кількості навчальних пар, маркованих людиною, для багатомовного пошуку. SWIM-IR використовує метод SAP, що дає змогу синтетично доопрацьовувати багатомовні моделі щільного пошуку без участі людини. Моделі SWIM-X, навчені на SWIM-IR, демонструють конкурентоспроможність з моделями пошуку під наглядом людини в різних тестах, зокрема XOR-Retrieve, XTREME-UP і MIRACL.

Дослідження розглядає обмеження в багатомовних моделях щільного пошуку, які часто стикаються з труднощами через обмеженість або нерівномірність навчальних даних. SWIM-IR використовує SAP, щоб допомогти великим мовним моделям (LLM) генерувати інформативні запити цільовою мовою. Моделі SWIM-X, навчені на SWIM-IR, демонструють конкурентоспроможну продуктивність з моделями, керованими людиною, в різних тестах, демонструючи потенціал синтетичних наборів даних як економічно ефективної альтернативи навчальним даним, маркованим людиною, для багатомовних моделей щільного пошуку.

Ілюстрація процедури побудови міжмовного набору даних SWIM-IR. (1) Вибірка N уривків з англійської Вікіпедії з використанням стратифікованої вибірки для кожної цільової мови з загальної кількості L мов; (2) Подача одного вхідного уривка разом з кількома прикладами до LLM з SAP (summarize-then-ask prompting); (3 і 4) Аналіз результатів LLM для отримання синтетичного запиту цільовою мовою (вище для бенгальської); (5) Точне налаштування багатомовної моделі щільного пошуку (SWIM-X) з навчальними даними, об’єднаними для всіх мов, тобто N×L пар. Джерело

У дослідженні розглядається обмежений успіх багатомовних моделей щільного пошуку, що пояснюється недостатньою кількістю контрольованих навчальних даних для неангломовних країн. SWIM-IR надає синтетичний набір даних для точного налаштування багатомовних моделей щільного пошуку, оцінених за допомогою таких тестів, як XOR-Retrieve, XTREME-UP і MIRACL. Результати демонструють ефективність SWIM-IR в заміні дорогих навчальних даних, маркованих людиною, забезпечуючи конкурентоспроможність багатомовних моделей щільного пошуку в порівнянні з аналогами, керованими людиною.

SWIM-IR, навчальний набір даних для синтетичного пошуку, що охоплює 33 мови, було створено за допомогою методу SAP. У дослідженні вивчається синтетичне доопрацювання багатомовних моделей щільного пошуку, адаптуючи модель DPR. Використовуючи фреймворк T5X Retrieval, він відтворює базові показники mContriever і mDPR з нульовим результатом. Моделі SWIM-X демонструють конкурентоспроможну продуктивність у багатомовних завданнях щільного пошуку, перевершуючи існуючі моделі в таких тестах, як XOR-Retrieve і MIRACL. Дослідження підкреслює важливість оптимізованих методів навчання, включаючи кращу вибірку жорстких негативів за допомогою SWIM-IR, для підвищення продуктивності синтетичних моделей.

Хоча SWIM-IR має обмеження, такі як деконтекстуалізація і підміна коду, а також потенційні ризики, такі як дезінформація при генерації LLM, вони не мають значного впливу на подальше завдання багатомовного пошуку. Дослідження підкреслює потенціал SWIM-IR як економічно ефективної заміни дорогих навчальних даних для пошуку, маркованих людиною, що дає змогу розробляти надійні багатомовні моделі щільного пошуку.