10.08.2023 13:13

Google прагне більше даних для навчання свого ШІ

Google відкрито заявляє про свій намір використовувати контент веб-видавців для вдосконалення своїх систем штучного інтелекту. Технологічний і пошуковий гігант пропонує компаніям обрати варіант відмови, подібний до того, як вони зараз роблять для індексації в пошукових системах, якщо вони хочуть запобігти видаленню їхнього контенту.

Противники такого підходу стверджують, що ця політика порушує норми авторського права, відповідно до яких відповідальність традиційно покладається на тих, хто прагне використати захищений авторським правом матеріал, а не на самих власників авторських прав.

Стратегія Google стала відома після того, як вона була представлена на консультації австралійського уряду щодо регулювання додатків зі штучним інтелектом з високим ступенем ризику. Оскільки Австралія розглядає можливість заборони певних ризикованих застосувань штучного інтелекту, таких як дезінформація та упередженість, Google стверджує, що розробники штучного інтелекту потребують широкого доступу до даних.

Як зазначає The Guardian, Google повідомив австралійським політикам, що “закон про авторське право повинен сприяти належному і справедливому використанню захищеного авторським правом контенту” з метою навчання ШІ. Компанія послалася на свій стандартизований пошуковик контенту під назвою robots.txt, який дозволяє видавцям визначати частини своїх веб-сайтів, недоступні для пошукових роботів.

Google не надав конкретної інформації про механізми відмови від використання штучного інтелекту на сайтах власників. У своєму блозі компанія туманно згадала про запровадження “стандартів і протоколів”, які запропонували б творцям сайтів гнучкість у визначенні ступеня їхньої участі у використанні ШІ.

Компанія виступає за зміни в австралійському законодавстві про авторське право з травня, особливо після того, як представила в країні свого чат-бота Bard AI. Втім, Google – не єдиний гравець з амбіціями щодо збору даних. OpenAI, розробник відомого чат-бота ChatGPT, також планує розширити свій навчальний набір даних за допомогою нового веб-сканера GPTBot. Подібно до Google, він застосовує підхід відмови, коли видавці повинні включити директиву “заборонити”, якщо вони не бажають, щоб їхній контент був вилучений.

Такий підхід є звичним для багатьох великих технологічних компаній, які інтенсивно використовують ШІ, зокрема алгоритми глибокого та машинного навчання, для аналізу вподобань користувачів і надання їм персоналізованого контенту та реклами.

Прагнення до збільшення збору даних збігається зі стрімким зростанням популярності штучного інтелекту. Ефективність таких платформ, як ChatGPT і Google’s Bard, залежить від їхньої здатності обробляти великі масиви даних тексту, зображень і відео. За даними OpenAI, “GPT-4 отримав знання з різних ліцензованих, створених і загальнодоступних джерел даних, деякі з яких можуть включати загальнодоступні персональні дані”.

Однак деякі експерти стверджують, що зчитування веб-сторінок без отримання дозволу викликає занепокоєння з приводу авторських прав та етики. Такі видавці, як News Corp. ведуть переговори з компаніями, що займаються штучним інтелектом, з метою домовитися про компенсацію за використання їхнього контенту. Нещодавно AFP (Agence France-Presse) опублікувало відкритого листа, присвяченого саме цьому питанню.

“Генеративний ШІ та великі мовні моделі зазвичай навчаються на власному медіа-контенті, на створення якого видавці та інші інвестують багато часу та ресурсів. Така практика підриває основні бізнес-моделі медіаіндустрії, які ґрунтуються на читацькій та глядацькій аудиторії (наприклад, підписці), ліцензуванні та рекламі,” — йдеться в листі.

Дебати, що тривають, відображають конфлікт між розвитком штучного інтелекту завдяки необмеженому доступу до даних і захистом прав власності. З одного боку, збільшення споживання контенту розширює можливості цих систем. З іншого боку, ці компанії також отримують вигоду від роботи інших, не ділячись з ними винагородою.

Пошук правильної рівноваги є складним завданням. Пропозиція Google, по суті, ставить видавців перед вибором: або надати свій контент для нашого штучного інтелекту, або вжити активних заходів, щоб відмовитися від нього. Для невеликих видавців з обмеженими ресурсами чи досвідом відмова може бути проблематичною.

Дослідження етики ШІ в Австралії дає можливість більш ефективно формувати траєкторію розвитку цих технологій. Проте, якщо публічний дискурс поступиться місцем жадібним до даних технологічним гігантам, які переслідують власні інтереси, може скластися ситуація, коли творчі роботи будуть асимільовані системами штучного інтелекту, якщо творці не будуть керувати складними процесами, щоб запобігти цьому.