08.08.2023 11:21

OpenAI запускає веб-краулер GPTBot

OpenAI, організація, що займається розробкою в галузі штучного інтелекту, представила “GPTBot” – новий інструмент для сканування вебсторінок. За словами компанії, цей інструмент може бути використаний для покращення майбутніх версій моделі ChatGPT.

“За допомогою юзерагента GPTBot будуть скануватися вебсторінки, і отримані дані можуть знайти застосування в покращенні майбутніх моделей.” — йдеться у дописі в блозі OpenAI.

Компанія додала, що такий підхід може підвищити точність та розширити можливості майбутніх розробок.

Веб-краулер, який також називають веб-павуком, є типом бота, що індексує вміст вебсайтів в Інтернеті. Пошукові системи, такі як Google та Bing, користуються ними для індексації вебсторінок у своїх пошукових результатах.

OpenAI заявила, що GPTBot буде збирати загальнодоступні дані з усієї всесвітньої мережі, проте він відфільтрує джерела, що пропонують платний контент, або відомі своєю практикою збору особистої інформації, або містять контент, який суперечить їхній політиці.

Breaking 🚨

OpenAI just launched GPTBot, a web crawler designed to automatically scrape data from the entire internet.

This data will be used to train future AI models like GPT-4 and GPT-5!

GPTBot ensures that sources violating privacy and those behind paywalls are excluded. pic.twitter.com/oR3kY4buaU
— Shubham Saboo (@Saboo_Shubham_) August 7, 2023

Власники веб-сайтів можуть заборонити доступ веб-краулера до свого контенту, додавши відповідний запис “disallow” у robots.txt на своєму сервері.

Інструкції щодо “заборони” GPTBot для власників вебсайтів. Джерело: OpenAI

Цей інструмент було представлено приблизно через три тижні після того, як OpenAI подала заявку на реєстрацію торговельної марки “GPT-5”. Ця марка охоплюватиме програмне забезпечення для розпізнавання людської мови та тексту на основі штучного інтелекту, конвертацію аудіо в текст, а також розпізнавання голосу та мовлення.

OpenAI has filed a trademark application for:

“GPT-5”

which includes “software for”:

“the artificial production of human speech and text”

“conversion of audio data files into text”

"voice and speech recognition"

"machine-learning based language and speech processing"

👀 pic.twitter.com/54aJBovDNB
— YK aka CS Dojo 📺🐦 (@ykdojo) August 1, 2023

Тим не менше, не варто забувати, що впровадження нових версій ChatGPT можуть тривати деякий час. У червні головний виконавчий директор OpenAI Сем Альтман наголосив, що компанія “ще далека” від початку навчання GPT-5. Необхідно провести ряд аудитів безпеки перед початком цього процесу.

Авторські права та конфіденційність

Тим часом виникають питання стосовно практик збору даних OpenAI, особливо відносно авторських прав і згоди користувачів. У червні японський орган з контролю за конфіденційністю висловив обурення щодо незаконного збору конфіденційних даних OpenAI без належної згоди. Також в квітні Італія тимчасово заборонила використання ChatGPT, звинувативши його в порушенні різних законів Європейського Союзу, пов’язаних з конфіденційністю.

Наприкінці червня проти OpenAI було подано колективний позов від 16 позивачів, які звинувачують компанію у несанкціонованому доступі до приватної інформації, отриманої під час взаємодії користувачів з ChatGPT.

Якщо ці обвинувачення буде підтверджено, як можливо, OpenAI та Microsoft, яка також зазначена як відповідач, порушать Закон про комп’ютерне шахрайство та зловживання, а цей закон вже має прецеденти у справах пов’язаних з веб-скрейпінгом.

Також нещодавно американські дослідники знайшли спосіб обходити заходи безпеки чат-ботів зі штучним інтелектом, таких як ChatGPT і Bard, щоб генерувати шкідливий контент.