16.08.2023 16:17

Чому крихітний стартап, про який ви, мабуть, ніколи не чули, отримав великий шквал критики з боку ШІ

Харі Кунзру не мав наміру розпочинати конфлікт. Все почалося 7 серпня, коли письменник з Брукліна їхав у метро, прокручуючи стрічку своїх соціальних мереж. Він помітив низку авторів, які висловлювали невдоволення сайтом під назвою Prosecraft, що спеціалізувався на лінгвістичному аналізі. Цей сайт надавав детальну розбивку стилів написання та наративів для більш ніж 25 000 назв книг. Він пропонував різноманітну лінгвістичну статистику, наприклад, підрахунок прислівників і ранжував вибір слів за рівнем “яскравості” чи “пасивності”. Заінтригований, Кунзру зайшов на сайт Prosecraft і перевірив, чи не було проаналізовано його власну роботу. На свій подив, він виявив, що його книга “Білі сльози”, опублікована у 2017 році, зазначена на сайті як така, що знаходиться у 61-му процентилі за “яскравістю”.

Роздратування Кунзру спонукало його приєднатися до зростаючого хору голосів проти Prosecraft. Однак його розчарування не було спрямоване на сам аналіз. Його більше турбувала підозра, що засновник сайту, Бенджі Сміт, придбав його літературний каталог без належної компенсації. Кунзру був глибоко переконаний, що зібрати таку базу даних легально дуже малоймовірно.

“Ця компанія Prosecraft, схоже, вкрала багато книг, навчила штучний інтелект і тепер пропонує послугу на основі цих даних. Я не давав згоди на таке використання моєї роботи”, — написав Кунзру в твіттері.

Повідомлення Харі Кунзру швидко набуло розголосу, як і щире прохання письменника жанру хоррор Закарі Розенберга, який звернувся безпосередньо до Бенджі Сміта, засновника “Прокрафту”. Як і Кунзру, Розенберг чув про Prosecraft і вимагав видалити його твір з сайту. Цей досвід залишив у нього відчуття образи.

Хвиля невдоволення зростала, коли до розмови долучилися сотні інших авторів. Дехто висловлював свою злість на адресу Сміта досить сильними словами. Багато авторів навіть подумували про те, щоб звернутися до суду, що призвело до потоку запитів про допомогу від Гільдії авторів, генеральний директор якої, Мері Расенбергер, зауважила, що реакція була приголомшливою.

Всього за 24 години Prosecraft опинився завалений сотнями листів з вимогами припинити діяльність. Швидка і жорстока реакція намалювала чітку картину того, що реакція проти ШІ вже почалася. Інцидент призвів до падіння Prosecraft, оскільки Сміт вирішив все видалити і принести вибачення. Цей епізод продемонстрував, що ширші настрої проти ШІ та його потенційного зловживання досягли точки кипіння.

Засновник Prosecraft, Бенджі Сміт, був приголомшений несподіваною суперечкою, що виникла.

У той час Сміт був удома, в маленькому містечку поблизу Портленда, штат Орегон, і щойно повернувся з конференції з медитації вдячності. Він прагнув повернутися до роботи. Нещодавно, у травні, Сміт залишив свою постійну роботу інженера-програміста, щоб зосередитися на своєму стартапі — настільному текстовому процесорі для письменників під назвою Shaxpir (вимовляється як “Шекспір”). Хоча Shaxpir ще не приносив значних доходів — недостатньо для покриття витрат на хмарні сервіси, які становили менше $10 000 на рік, — Сміт не втрачав надії щодо його потенціалу.

Prosecraft, який Сміт запустив у 2017 році, був побічним проектом його основного підприємства. Він працював як незалежний веб-сайт, пропонуючи безкоштовний лінгвістичний аналіз романів. Крім того, Сміт використовував базу даних Prosecraft для інструментів, включених у платну версію Shaxpir, надаючи їй комерційного значення.

Концепція Prosecraft, за словами Сміта, виникла з його звички рахувати слова в книгах, якими він захоплювався під час роботи над мемуарами про виживання після корабельної аварії “Costa Concordia” у 2012 році. Вважаючи такий аналіз цінним для колег-авторів, він застосував алгоритми, що походять з його навчання з комп’ютерної лінгвістики. Сміт розробив процес подання заявок, що дозволяє авторам вносити власні роботи до його бази даних, передбачаючи, що їхні роботи зрештою стануть основою його бібліотеки. За ці роки близько сотні авторів надіслали свої роботи до Prosecraft. Однак Сміт не міг передбачити, що його творіння врешті-решт викличе гнів багатьох авторів, на яких він прагнув справити враження.

На відміну від численних проектів зі створення штучного інтелекту, що привернули до себе увагу, Prosecraft не тренувався на великих мовних моделях і не функціонував як генеративний продукт ШІ. Натомість він був набагато простішим інструментом — свого роду спробою, яку особливо відданий і трохи дивакуватий аспірант з комп’ютерної лінгвістики міг би розробити як зразковий випускний проект. Проте він мав критично важливу схожість з кількома проектами зі створення штучного інтелекту, що потрапили в заголовки газет: він навчався на значному наборі даних, витягнутих з Інтернету без належної уваги до потенційних порушень авторських прав.

Сміт розглядав це як прагматичний засіб для досягнення виправданої мети. Хоча зараз він не захищає свої дії і визнає причини, що викликали загальне обурення, він прагне передати думку, якої дотримувався в той час. Сміт вірив, що демонстрація можливостей Prosecraft спонукатиме людей визнати його новизну та корисність, а тому більш охоче подавати свої рукописи. Він прагнув, щоб видавці були зацікавлені в тому, щоб їхні книги були представлені на Prosecraft. Він стверджує: “Не було способу передати, якою ця річ може бути, не побудувавши її спочатку. Тож я почав збирати дані єдиним відомим мені способом, а саме: все це є в інтернеті”.

Підхід Сміта до отримання книг для аналізу був суперечливим — він не купував книги, а скоріше знаходив їх на книжкових піратських сайтах. Він натякнув на це у своїх вибаченнях, коли видалив Prosecraft, і він відкрито визнає цю практику, коли його запитують, хоча він виглядає дещо здивованим ступенем гніву людей. Сміт запитує: “Чи будуть люди менше злитися на мене, якщо я куплю копію кожної з цих книжок?”. Це питання підкреслює дебати навколо використання тіньових бібліотек для наукової роботи — практики, яка протягом багатьох років викликає дискусії. Такі проекти, як Sci-Hub та Libgen, що розповсюджують наукові статті та книги, отримали підтримку дослідників, які відстоюють ідею, що інформація повинна бути у вільному доступі.

Багато авторів, які висловили своє несхвалення діям Сміта, наприклад, Кунзру, в першу чергу заперечують проти використання ним піратської бази даних. Зокрема, їх обурює ідея отримання прибутку від інструментів, розроблених з використанням даних, отриманих з піратської бібліотеки, замість того, щоб проводити законні дослідження. Девін Медсон, одна з перших, хто висловив своє занепокоєння щодо Prosecraft, розрізняє прийнятне вилучення даних і спробу отримати прибуток від інструментів, створених на основі вилучених даних. Крім того, вона займає більш широку позицію проти інструментів для написання текстів зі штучним інтелектом, зокрема Grammarly, оскільки вважає, що вони сприяють гомогенізації літературних стилів.

Цікаво, що не всі автори виступають проти Prosecraft. Ем-Джей Джавані, наприклад, був радий, що його перший роман проаналізували на платформі, і навіть подумав би про те, щоб заплатити за аналіз, якби він не був безкоштовним. Даніела Замудіо, письменниця, яка подала свій твір на Prosecraft, також підтримала платформу і не погодилася з її видаленням.

Навіть серед прихильників зберігається занепокоєння щодо піратської бібліотеки. Замудіо, наприклад, визнає заперечення, пов’язані з піратством, але сподівається, що Prosecraft може повернутися з базою даних, яка базуватиметься на поданих роботах.

Хоча моральний аргумент проти Prosecraft простий — книжки були отримані піратським шляхом — залишаються питання про те, чи була реакція Сміта на негативну реакцію виправданою. Кунзру вважає, що дії Сміта необхідно було викрити, додавши, що він, можливо, не до кінця усвідомлював нинішню чутливість таких питань, як страйк Гільдії письменників Америки та підвищена увага до великих мовних моделей і машинного навчання.

Однак не всі поділяють таку ж точку зору. Тед Макілрой, аналітик видавничої індустрії, негативно ставиться до вилучення даних, а також не підтримує піратські бібліотеки. Він вважає, що реакція проти Prosecraft непропорційно перебільшена, описуючи її як “кричущу істерію”.

Більше того, експерти з авторського права спостерігають за цим скандалом з почуттям здивування. Хоча справа проти піратства проста, вони зберігають певний скептицизм щодо можливості успішного судового позову проти Prosecraft.

Метью Саг, професор права з Університету Еморі, вважає, що Сміт міг би успішно захистити свій проект, посилаючись на добросовісне використання (fair use) — доктрину, яка дозволяє використовувати захищені авторським правом матеріали без дозволу за певних обставин, наприклад, для створення пародії або написання рецензії на книгу. Добросовісне використання є поширеним способом захисту від звинувачень у порушенні авторських прав у США, і його використовують також технологічні компанії. За словами юриста з питань інтелектуальної власності Бхаматі Вісванатана, який написав книгу про авторське право і творчість, це “каламутна і нечітко визначена” сфера права. Це робить питання про те, що є чи не є добросовісним використанням, настільки ж туманним і нечітким, навіть якщо воно отримане з піратських джерел.

Саг, разом з кількома іншими експертами, з якими я спілкувався, вказав на справи Google Books та HathiTrust як на прецеденти. Ці справи стосувалися проектів, які завантажували фрагменти книг онлайн без отримання чіткого дозволу від власників авторських прав, але суди винесли рішення на користь добросовісного використання. Саг зазначає, що коріння обурення навколо Prosecraft, ймовірно, виходить за рамки конкретної ситуації і відображає ширші проблеми в індустрії.

Раніше влітку проти OpenAI був поданий гучний колективний позов відомих людей, які стверджували, що генеративна модель навчалася на тіньових бібліотеках. Сара Сільверман, одна з позивачів, стверджує, що таким чином були викреслені її мемуари. Позов викликав значний емоційний резонанс, але його правове підґрунтя залишається предметом суперечок у спільноті захисників авторських прав.

Мері Расенбергер, генеральний директор Гільдії авторів, підкреслює важливість захисту авторських прав для підтримки процвітання видавничої екосистеми. Вона наводить нещодавні судові рішення, такі як рішення Верховного суду США щодо творів мистецтва Енді Воргола та авторських прав, як свідчення потенційно можливої зміни інтерпретації добросовісного використання в правовій системі.

Білл Розенблатт, дослідник авторського права і технолог, спостерігає значні зміни в громадській думці щодо авторського права і даних з часів Napster. Якщо колись великі технології позиціонувалися як аутсайдер проти традиційних галузей, то зараз наратив змінився, і технологічні гіганти зображуються як потужні суб’єкти, що потребують регулювання. У цьому контексті Prosecraft, хоч і невеликий гравець, опинився під перехресним вогнем на тлі ширших дебатів про вплив штучного інтелекту на креативні індустрії.

Підсумовуючи, можна сказати, що суперечка навколо Prosecraft є мікрокосмом ширшої реакції на ШІ. Вона висвітлює складний взаємозв’язок між авторським правом, використанням даних і мінливим ставленням до технологічних гігантів, що, зрештою, підкреслює занепокоєння щодо генеративного ШІ та його потенційних наслідків для людської творчості.

Через рік пам’ять про цю суперечку, що розгорілася в соціальних мережах, можливо, відійде на задній план. Сміт швидко поступився своїм критикам, що призвело до занепаду відносно маловідомого аналітичного інструменту. Однак цей інцидент проливає світло на ширший зсув в культурі, де несанкціоноване використання творчих творів для навчання моделей ШІ зустрічає дедалі більший опір. У цьому конкретному випадку письменники досягли швидкого тріумфу над людиною в Орегоні, яка намагалася розібратися з нюансами пасивного стану.

Така яскрава реакція видатних діячів, ймовірно, пов’язана з розумінням того, що майбутні масштабні битви будуть важкими і затяжними. Нинішній страйк голлівудських сценаристів, який Гільдія письменників Америки проводить з вимогою переговорів зі студіями щодо ШІ, є найдовшим у своєму роді з 1988 року. Аналогічно, позов OpenAI є спробою відновити контроль, але його складність у поєднанні з прецедентами добросовісного використання створює значні труднощі.

Тим часом письменники роблять активні кроки, щоб встановити власні межі того, як генеративний ШІ використовує їхні твори. Наприклад, Кунзру уклав видавничий контракт, який містив пункт, що прямо забороняв використовувати його твір для навчання великих мовних моделей. Ця тенденція зростає, оскільки все більше авторів вступають у переговори про укладення контрактів і прагнуть включити в них пункти, що стосуються ШІ. Однак не всі автори знаходять цей шлях гладким, наштовхуючись на опір і дебати щодо відповідних формулювань.

Літературна агентка Енн Тіббетс стала свідком сплеску зацікавленості письменників: численні клієнти вимагають включення положень про штучний інтелект під час обговорення контрактів. Реакція видавництв була різною: деякі повільно адаптувалися, а інші відверто відмовлялися включати такі формулювання. Той факт, що агентства наймають консультантів для розробки політик щодо ШІ, підкреслює усвідомлення того, що цей конфлікт далекий від завершення. Поки письменники, видавці та прихильники ШІ намагаються зорієнтуватися в цьому мінливому ландшафті, стає зрозуміло, що питання ШІ та творчих творів залишається актуальним.