Сайт позволяет найти книги, которые «спиратила» Meta для обучения ИИ Llama
Сайт позволяет найти книги, которые «спиратила» Meta для обучения ИИ Llama

Сайт позволяет найти книги, которые «спиратила» Meta для обучения ИИ Llama

Сайт позволяет найти книги, которые «спиратила» Meta для обучения ИИ Llama - Фото 1

В январе 2025 года, в течение судебного процесса процесс выяснилось, что Meta Марка Цукерберга для обучение ИИ Llama незаконно использовала миллионы книг. Теперь можно найти, какие конкретно.

Большие языковые модели ИИ требуют огромных наборов текстовых данных для обучения и воспроизведения точного соответствия слов в языке. На самом деле легальные оригинальные материалы для искусственного интеллекта становится трудно найти.

«У нас буквально заканчивается текст во Вселенной, на котором можно обучать эти системы», — сказал ученый-информатик Стюарт Рассел еще в 2023 году

Meta, материнская компания Facebook и Instagram, вынужденно приоткрыла завесу с того, как это делается на самом деле. Судебное дело выявило тот факт, что Meta незаконно загрузила известную пиратскую библиотеку LibGen, чтобы получить миллионы защищенных законом текстов. После того, программисты получили одобрение лично от Цукерберга, книги нелегально были переданы для обучения LLM. Так, одна из крупнейших компаний в мире не заплатила ни за одну копию этих книг.

Сайт The Atlantic создал поисковую систему, которая позволяет выявить в файлах LibGen, какие именно книги были использованы Meta. Речь идет о чрезвычайно большом объеме данных, которые охватывают более 7,5 млн книг, около 81 млн научных работ, а также другие произведения.

Иск возглавляли авторы Та-Нехиси Коутс и Сара Сильверман, которые имели представление о пиратстве данных в Meta благодаря предыдущему иску 2023 года. Новый инструмент поиска позволяет писателям и ученым увидеть, какая именно работа была «спирачена» корпорацией для обучения коммерческого ИИ.

«Моя книга здесь — и это хорошо! LibGen делает тексты доступными для людей, которые иначе не имели бы доступа. Проблема заключается не в том, что LibGen делает контент доступным бесплатно, а в том, что Meta крадет этот материал ради прибыли», — говорит автор Wired Джастин Линг.

Окончательное решение в продолжающемся процессе ожидается не раньше лета. Тем временем Llama работает и свободен на таких платформах, как Facebook, Instagram и WhatsApp. Это не единственный подобный процесс против крупной корпорации: год назад авторы судились с NVIDIA.

Спецпроекты

Источник: Futurism

Сайт позволяет найти книги, которые «спиратила» Meta для обучения ИИ Llama - Фото 2
Источник материала