Надія на захист. З’явився інструмент, який заважає ботам викрадати дані для навчання ШІ
Надія на захист. З’явився інструмент, який заважає ботам викрадати дані для навчання ШІ

Надія на захист. З’явився інструмент, який заважає ботам викрадати дані для навчання ШІ

Постачальник хмарних послуг Cloudflare запустив безплатний інструмент, який захистить дані вебсайтів від їхнього використання для навчання штучного інтелекту.

Популярність генеративного штучного інтелекту призвела до стрімкого зростання попиту на дані, що використовуються для навчання моделей. Для отримання даних компанії створили спеціальних ботів, що сканують вебсторінки. Частина компаній роблять це прозоро і не використовують неліцензійний вміст, інші правил не дотримуються. Однак, незалежно від доброчесності компаній у сфері ШІ, деякі власники сайтів не хочуть, аби ШІ-боти сканувати їхній вміст. Для них Cloudflare запустила новий інструмент і зробила його безплатним.

«Ми додали нову функцію блокування всіх ботів зі штучним інтелектом одним клацанням миші. Він доступний для всіх клієнтів, у тому числі для тих, хто має безплатний рівень. Щоб увімкнути його, просто перейдіть до розділу Безпека > Боти на інформаційній панелі Cloudflare і клацніть перемикач із позначкою AI Scrapers and Crawlers. Ця функція буде автоматично оновлюватися з часом, коли ми побачимо нові сліди ботів-порушників, які, як ми встановили, широко сканують Інтернет для навчання моделей», — повідомляє компанія у блозі.

За інформацією компанії, минулого місяця боти ШІ-компаній отримали доступ до близько 39% з мільйона найбільших інтернет-ресурсів за допомогою Cloudflare, але лише 2,98% цих ресурсів вжили заходів, щоб заблокувати або оскаржити ці запити. Найбільш активним був Bytespider від власника TikTok ByteDance. Bytespider лідирує не лише за кількістю запитів, але й за ступенем сканування Інтернет-ресурсу та частотою, з якою його блокують. Слідом за ним йде GPTBot, який OpenAI використовує для збирання навчальних даних для своїх великих мовних моделей. Він посідає друге місце як за скануванням, так і за блокуванням. Також в топі Amazonbot (використовується для індексування вмісту для розвитку Alexa) та ClaudeBot (використовується для навчання чат-бота Anthropic Claude).

Источник материала
loader
loader