
08.08.2023 11:21
OpenAI запускає веб-краулер GPTBot
OpenAI, організація, що займається розробкою в галузі штучного інтелекту, представила “GPTBot” – новий інструмент для сканування вебсторінок. За словами компанії, цей інструмент може бути використаний для покращення майбутніх версій моделі ChatGPT.
“За допомогою юзерагента GPTBot будуть скануватися вебсторінки, і отримані дані можуть знайти застосування в покращенні майбутніх моделей.” — йдеться у дописі в блозі OpenAI.
Компанія додала, що такий підхід може підвищити точність та розширити можливості майбутніх розробок.
Веб-краулер, який також називають веб-павуком, є типом бота, що індексує вміст вебсайтів в Інтернеті. Пошукові системи, такі як Google та Bing, користуються ними для індексації вебсторінок у своїх пошукових результатах.
OpenAI заявила, що GPTBot буде збирати загальнодоступні дані з усієї всесвітньої мережі, проте він відфільтрує джерела, що пропонують платний контент, або відомі своєю практикою збору особистої інформації, або містять контент, який суперечить їхній політиці.
Власники веб-сайтів можуть заборонити доступ веб-краулера до свого контенту, додавши відповідний запис “disallow” у robots.txt на своєму сервері.

Цей інструмент було представлено приблизно через три тижні після того, як OpenAI подала заявку на реєстрацію торговельної марки “GPT-5”. Ця марка охоплюватиме програмне забезпечення для розпізнавання людської мови та тексту на основі штучного інтелекту, конвертацію аудіо в текст, а також розпізнавання голосу та мовлення.
Тим не менше, не варто забувати, що впровадження нових версій ChatGPT можуть тривати деякий час. У червні головний виконавчий директор OpenAI Сем Альтман наголосив, що компанія “ще далека” від початку навчання GPT-5. Необхідно провести ряд аудитів безпеки перед початком цього процесу.
Авторські права та конфіденційність
Тим часом виникають питання стосовно практик збору даних OpenAI, особливо відносно авторських прав і згоди користувачів. У червні японський орган з контролю за конфіденційністю висловив обурення щодо незаконного збору конфіденційних даних OpenAI без належної згоди. Також в квітні Італія тимчасово заборонила використання ChatGPT, звинувативши його в порушенні різних законів Європейського Союзу, пов’язаних з конфіденційністю.
Наприкінці червня проти OpenAI було подано колективний позов від 16 позивачів, які звинувачують компанію у несанкціонованому доступі до приватної інформації, отриманої під час взаємодії користувачів з ChatGPT.
Якщо ці обвинувачення буде підтверджено, як можливо, OpenAI та Microsoft, яка також зазначена як відповідач, порушать Закон про комп’ютерне шахрайство та зловживання, а цей закон вже має прецеденти у справах пов’язаних з веб-скрейпінгом.
Також нещодавно американські дослідники знайшли спосіб обходити заходи безпеки чат-ботів зі штучним інтелектом, таких як ChatGPT і Bard, щоб генерувати шкідливий контент.