«Це була помилка». Мільйон дописів з Bluesky вкрали для створення навчальних даних для ШІ
«Це була помилка». Мільйон дописів з Bluesky вкрали для створення навчальних даних для ШІ

«Це була помилка». Мільйон дописів з Bluesky вкрали для створення навчальних даних для ШІ

Команда платформи Bluesky, що стрімко набирає популярність останні місяці, обіцяє не використовувати дані користувачів для навчання ШІ. Однак ніхто не перешкоджає тому, аби дані збирав хтось інший.

Цього тижня один мільйон публічних публікацій Bluesky разом із ідентифікаційною інформацією користувача було проскановано, а потім завантажено в Hugging Face. Набір даних був створений фахівцем з машинного навчання Деніелом ван Стрієном й призначений для використання в розробці мовних моделей і обробці природної мови, а також для загального аналізу тенденцій соціальних медіа, модерації вмісту та шаблонів публікацій. Він містив децентралізовані ідентифікатори користувачів (DID) і навіть мав функцію пошуку вмісту від конкретних користувачів, повідомляє 404Media.

Відповідно до опису набору даних, публікації було зібрано з Firehose API Bluesky Social. Користувачі Bluesky не надавали згоду на таке використання даних, однак платформа і не забороняє подібні маніпуляції.

Незабаром після того, як інформація про цей набір даних набула розголосу, його видалили з Hugging Face.

«Я видалив дані Bluesky із сховища. Хоча я хотів підтримати розробку інструментів для платформи, я визнаю, що цей підхід порушує принципи прозорості та згоди на збір даних. Я прошу вибачення за цю помилку» — написав ван Стрієн у дописі на Bluesky.

Це може бути тривожним дзвіночком для користувачів платформи, яка стрімко набирає популярність останні тижні. Хоча власники платформи обіцяли не використовувати дані користувачів для навчання ШІ, вони все ще не зробили інструменти, щоб змусити сторонні компанії не робити це без згоди юзерів.

Источник материала
loader
loader