![](https://thetransmitted.com/wp-content/uploads/2023/11/swim.jpg)
20.11.2023 15:28
Великий набір даних для синтетичного багатомовного пошуку з 28 мільйонами навчальних пар на 33 мовах
Дослідники з Google Research, Google DeepMind та Університету Ватерлоо представили SWIM-IR – навчальний набір даних для синтетичного пошуку, що охоплює 33 мови. Це вирішує проблему обмеженої кількості навчальних пар, маркованих людиною, для багатомовного пошуку. SWIM-IR використовує метод SAP, що дає змогу синтетично доопрацьовувати багатомовні моделі щільного пошуку без участі людини. Моделі SWIM-X, навчені на SWIM-IR, демонструють конкурентоспроможність з моделями пошуку під наглядом людини в різних тестах, зокрема XOR-Retrieve, XTREME-UP і MIRACL.
Дослідження розглядає обмеження в багатомовних моделях щільного пошуку, які часто стикаються з труднощами через обмеженість або нерівномірність навчальних даних. SWIM-IR використовує SAP, щоб допомогти великим мовним моделям (LLM) генерувати інформативні запити цільовою мовою. Моделі SWIM-X, навчені на SWIM-IR, демонструють конкурентоспроможну продуктивність з моделями, керованими людиною, в різних тестах, демонструючи потенціал синтетичних наборів даних як економічно ефективної альтернативи навчальним даним, маркованим людиною, для багатомовних моделей щільного пошуку.
![](https://thetransmitted.com/wp-content/uploads/2023/11/1-12-1024x146.jpg)
У дослідженні розглядається обмежений успіх багатомовних моделей щільного пошуку, що пояснюється недостатньою кількістю контрольованих навчальних даних для неангломовних країн. SWIM-IR надає синтетичний набір даних для точного налаштування багатомовних моделей щільного пошуку, оцінених за допомогою таких тестів, як XOR-Retrieve, XTREME-UP і MIRACL. Результати демонструють ефективність SWIM-IR в заміні дорогих навчальних даних, маркованих людиною, забезпечуючи конкурентоспроможність багатомовних моделей щільного пошуку в порівнянні з аналогами, керованими людиною.
SWIM-IR, навчальний набір даних для синтетичного пошуку, що охоплює 33 мови, було створено за допомогою методу SAP. У дослідженні вивчається синтетичне доопрацювання багатомовних моделей щільного пошуку, адаптуючи модель DPR. Використовуючи фреймворк T5X Retrieval, він відтворює базові показники mContriever і mDPR з нульовим результатом. Моделі SWIM-X демонструють конкурентоспроможну продуктивність у багатомовних завданнях щільного пошуку, перевершуючи існуючі моделі в таких тестах, як XOR-Retrieve і MIRACL. Дослідження підкреслює важливість оптимізованих методів навчання, включаючи кращу вибірку жорстких негативів за допомогою SWIM-IR, для підвищення продуктивності синтетичних моделей.
Хоча SWIM-IR має обмеження, такі як деконтекстуалізація і підміна коду, а також потенційні ризики, такі як дезінформація при генерації LLM, вони не мають значного впливу на подальше завдання багатомовного пошуку. Дослідження підкреслює потенціал SWIM-IR як економічно ефективної заміни дорогих навчальних даних для пошуку, маркованих людиною, що дає змогу розробляти надійні багатомовні моделі щільного пошуку.