15.03.2024 14:54

Диявол ховається в «деталізації даних»

Нещодавнє інтерв’ю технічного директора OpenAI Міри Мураті журналістці Wall Street Journal Джоанні Стерн висвітлило складнощі, пов’язані з навчальними даними, які використовуються для моделі перетворення тексту у відео Sora від OpenAI. Хоча інтерв’ю розкрило вражаючі можливості моделі, воно також висвітлило проблеми прозорості та довіри у розробці ШІ.

Під час інтерв’ю Мураті згадала, що OpenAI використовувала загальнодоступні та ліцензовані дані для навчання Sora, включаючи контент з Shutterstock за шестирічною угодою про навчальні дані. Однак, коли мова зайшла про конкретні платформи, такі як YouTube, Facebook та Instagram, Мураті виглядала невпевненою і вирішила не заглиблюватися в деталі використовуваних даних.

Питання даних про навчання виходить за рамки авторських прав; воно поширюється на питання довіри та прозорості. Зацікавлені сторони в різних галузях прагнуть зрозуміти джерела навчальних даних для моделей штучного інтелекту і переконатися, що вони були отримані в законний спосіб і належним чином ліцензовані.

Ця проблема стосується не лише OpenAI, а й інших технологічних гігантів, таких як Google і Meta, які також використовують загальнодоступний контент для навчання своїх ШІ-моделей. Хоча така практика може бути законною, виникають питання щодо обізнаності громадськості та розуміння використання даних, особливо коли угоди про надання послуг змінюються непомітно.

Більш широке занепокоєння викликає те, як компанії-розробники технологій у галузі штучного інтелекту дотримуються балансу між використанням загальнодоступних даних для інновацій і повагою до приватного життя користувачів та прав інтелектуальної власності. У міру того, як моделі ШІ стають все більш складними і поширеними, вирішення цих проблем буде мати вирішальне значення для збереження довіри суспільства і дотримання етичних стандартів у розробці штучного інтелекту.

Зрештою, хоча такі компанії, як OpenAI, можуть надавати пріоритет партнерству між розробниками та підприємствами, громадське сприйняття та обізнаність щодо використання даних ШІ можуть сформувати майбутній ландшафт розробки та впровадження ШІ. Досягнення балансу між інноваціями та етичними методами роботи з даними матиме вирішальне значення для вирішення проблем, пов’язаних з навчальними даними ШІ.