BTC$29880

ETH$3666

Шукати

EleutherAI, ймовірно, порушила умови надання послуг YouTube, створивши масивний набір даних для навчання ШІ

Некомерційна дослідницька група EleutherAI, ймовірно, порушила умови надання послуг YouTube, створивши масивний набір даних для навчання штучного інтелекту з субтитрів YouTube.

Цей набір даних, відомий як «The Pile», використовується такими компаніями, як Anthropic, Salesforce, Apple, Nvidia та Bloomberg, містить субтитри з понад 173 000 відеороликів YouTube, включаючи 12 000 видалених відео. Це, ймовірно, є порушенням умов надання послуг YouTube, які забороняють збирати дані з платформи без згоди.

EleutherAI не визнала жодних правопорушень. Прессекретар Anthropic Дженніфер Мартінес заявила, що набір даних включає «дуже невелику підгрупу субтитрів YouTube», але відмовилася коментувати можливі порушення. Salesforce стверджує, що використовувала набір даних в академічних цілях, а Apple використовувала його для навчання мовної моделі OpenELM.

Цей інцидент порушує важливі питання про етику та законність використання даних для навчання ШІ. З одного боку, дослідникам потрібні великі обсяги даних для створення ефективних моделей ШІ. З іншого боку, важливо використовувати ці дані відповідально та з повагою до авторських прав.

Суперечки щодо авторських прав на ШІ мають далекосяжні наслідки. Юридична фірма Baker Hoestler нарахувала щонайменше п’ятнадцять судових процесів за участю таких технологічних компаній, як Anthropic, Meta, GitHub, Stability AI, Nvidia та Google. OpenAI, розробник популярної мовної моделі GPT-3, стикається з позовами від Mother Jones та The New York Times.