08.04.2024 10:36

Gretel AI випустила найбільший набір даних для Text-to-SQL

Gretel AI оголосила про випуск найширшого та найрізноманітнішого набору даних Text-to-SQL з відкритим вихідним кодом. Цей крок значно прискорить навчання моделей штучного інтелекту та підвищить якість даних в різних галузях.

Набір даних synthetic_text_to_sql від Gretel, доступний на Hugging Face, містить 105 851 запис, 100 000 з яких призначені для навчання, а 5 851 — для тестування. Ця колекція охоплює 23 мільйони токенів, 12 мільйонів з яких — SQL-токені, і охоплює 100 різних доменів. Набір даних охоплює широкий спектр завдань SQL, від визначення та пошуку до маніпулювання даними, аналітики та звітності, з різними рівнями складності SQL.

Набір даних відрізняється не лише розміром, а й ретельною структурою. Він включає контекст бази даних, пояснення SQL-запитів природною мовою та контекстні теги для оптимізації навчання моделі. Це обіцяє значно скоротити час і ресурси, які команди, що працюють з даними, витрачають на поліпшення якості даних.

У сучасному світі, орієнтованому на дані, Text-to-SQL стає ключовою інновацією, що робить дані більш доступними. Цей набір даних не тільки демократизує доступ до даних, але й полегшує розробку додатків ШІ, які можуть взаємодіяти з базами даних у більш інтуїтивно зрозумілий спосіб.

Gretel використовує свій інструмент Navigator, щоб генерувати високоякісні синтетичні дані у великих масштабах, обходячи ліцензійні обмеження, які часто гальмують дослідження.

Якість набору даних була перевірена за допомогою LLM, що показало високу відповідність стандартам SQL, коректність і дотримання інструкцій.

Випуск набору даних Gretel’s synthetic_text_to_sql — це значний крок вперед для спільноти ШІ. Цей набір даних не має аналогів за своїм розміром і різноманітністю, стимулюючи прогрес у Text-to-SQL та підкреслюючи критичну роль якісних даних у створенні ефективних систем ШІ.

Нагадаємо, Hugging Face представила Cosmopedia для створення синтетичних наборів даних.