Компанія Meta навчала свій ШІ на піратському контенті, взятому з торрентів

15 січня, 18:33

Документи свідчать, що Meta AI навчали на піратському контенті

Справа, відома як "Кадрі та інші проти Meta Platforms", була започаткована у 2023 році письменниками Річардом Кадрі та Крістофером Голденом. Вони стверджували, що Meta використовувала захищений авторським правом контент без дозволу. У процесі захисту компанія спочатку передала суду документи з відредагованою інформацією, але суддя Вінс Чхабрія з Окружного суду Північного округу Каліфорнії постановив, що вона повинна надати оригінали. Коли це сталося, правда нарешті розкрилася, повідомляє 24 Канал з посиланням на 9to5Mac.

Документи розкривають розмови між співробітниками про Meta AI та Llama. В одній з розмов інженер каже, що "торрентування з корпоративного ноутбука [Meta] здається неправильним", а це своєю чергою підтверджує, що компанія таки використовувала піратський контент для навчання ШІ. В іншій розмові йдеться про те, що "MZ", тобто Марк Цукерберг, дав дозвіл на використання піратських матеріалів.

Докази свідчать про те, що розробники використовували контент з LibGen, величезної бібліотеки піратських книг, журналів і наукових статей. LibGen створили у Росії в 2008 році й з того часу платформа зазнала численних судових позовів за порушення авторських прав, хоча ніхто не знає, хто насправді керує цим піратським хабом. Компанія також брала контент з інших "тіньових бібліотек" для навчання ШІ.

Компанія стверджує, що використовувала публічні матеріали відповідно до правової доктрини "добросовісного використання", яка дозволяє використовувати захищений авторським правом контент без дозволу за певних обставин, які аналізуються в кожному конкретному випадку. Вона також заявила, що це було просто "використання тексту для статистичного моделювання мови й генерування оригінальних висловлювань".

Поки що незрозуміло, що може загрожувати Meta, якщо суд остаточно вирішить, що компанія винна.

Це не перший випадок, коли великі компанії звинувачують у навчанні моделей штучного інтелекту за допомогою контенту, захищеного авторським правом. Торік розслідування показало, що модель OpenELM, створена Apple, включала субтитри з більш ніж 170 000 відео на YouTube. Хоча спочатку це змусило людей повірити, що Apple використовує захищений авторським правом контент для навчання Apple Intelligence, пізніше компанія пояснила, що OpenELM – це модель з відкритим вихідним кодом, створена для дослідницьких цілей, а її база даних не використовується для навчання Apple Intelligence. За словами Apple, функції штучного інтелекту, доступні на iOS і macOS, тренуються "на ліцензованих даних, включаючи дані, відібрані для поліпшення конкретних функцій, а також на загальнодоступних даних", зібраних компанією.

Теги за темою

Техно Інтернет

Джерело матеріала