08.04.2024 10:36
Gretel AI випустила найбільший набір даних для Text-to-SQL
Gretel AI оголосила про випуск найширшого та найрізноманітнішого набору даних Text-to-SQL з відкритим вихідним кодом. Цей крок значно прискорить навчання моделей штучного інтелекту та підвищить якість даних в різних галузях.
Набір даних synthetic_text_to_sql від Gretel, доступний на Hugging Face, містить 105 851 запис, 100 000 з яких призначені для навчання, а 5 851 — для тестування. Ця колекція охоплює 23 мільйони токенів, 12 мільйонів з яких — SQL-токені, і охоплює 100 різних доменів. Набір даних охоплює широкий спектр завдань SQL, від визначення та пошуку до маніпулювання даними, аналітики та звітності, з різними рівнями складності SQL.
Набір даних відрізняється не лише розміром, а й ретельною структурою. Він включає контекст бази даних, пояснення SQL-запитів природною мовою та контекстні теги для оптимізації навчання моделі. Це обіцяє значно скоротити час і ресурси, які команди, що працюють з даними, витрачають на поліпшення якості даних.
У сучасному світі, орієнтованому на дані, Text-to-SQL стає ключовою інновацією, що робить дані більш доступними. Цей набір даних не тільки демократизує доступ до даних, але й полегшує розробку додатків ШІ, які можуть взаємодіяти з базами даних у більш інтуїтивно зрозумілий спосіб.
Gretel використовує свій інструмент Navigator, щоб генерувати високоякісні синтетичні дані у великих масштабах, обходячи ліцензійні обмеження, які часто гальмують дослідження.
Якість набору даних була перевірена за допомогою LLM, що показало високу відповідність стандартам SQL, коректність і дотримання інструкцій.
Випуск набору даних Gretel’s synthetic_text_to_sql — це значний крок вперед для спільноти ШІ. Цей набір даних не має аналогів за своїм розміром і різноманітністю, стимулюючи прогрес у Text-to-SQL та підкреслюючи критичну роль якісних даних у створенні ефективних систем ШІ.
Нагадаємо, Hugging Face представила Cosmopedia для створення синтетичних наборів даних.