Reddit инициировала судебный иск против четырех компаний, среди которых Perplexity. Соцсеть обвиняет их в незаконном копировании контента с платформы для использования в системах искусственного интеллекта. В иске указано, что ответчики действовали "в промышленных масштабах", обходя технические средства защиты Reddit, пишет The Verge.
Согласно документам, поданным в суд, иск направлен против Perplexity, а также сервисов сбора данных SerpApi, Oxylabs и AWMProxy. В Reddit сравнили их деятельность с "грабителями банка, которые, не имея доступа к хранилищу, врываются в бронированный грузовик с наличными". Компания утверждает, что Perplexity является клиентом "по крайней мере одной" из этих структур и "делает все, чтобы получить данные Reddit, вместо заключения законной сделки".
В мае 2024 года Reddit направила Perplexity требование прекратить сбор данных с платформы. В ответ компания заверила, что не использует контент Reddit для обучения ИИ и будет придерживаться ограничений, определенных в файле robots.txt. Однако, по данным иска, после этого количество цитирований Reddit в Perplexity выросло.
Reddit также создала тестовую публикацию, которую мог видеть только Google. Через несколько часов содержимое этой страницы появилось в ответах Perplexity.
"Единственный способ, которым Perplexity могла получить этот контент, — это через поисковые результаты Google, после чего быстро включила его в свою систему ответов", — говорится в иске.
Представители Reddit отмечают, что данные пользователей платформы имеют значительную ценность для разработчиков искусственного интеллекта. Компания уже заключила соглашения с OpenAI и Google, чтобы легально предоставлять доступ к контенту для обучения моделей. В то же время в прошлом Reddit уже подавала иски против других компаний, в частности Anthropic, за действия подобные с Perplexity.
Главный юрисконсульт Reddit Бен Ли назвал нынешнюю ситуацию частью "гонки вооружений" среди компаний, разрабатывающих искусственный интеллект: "Компании участвуют в гонке за качественный контент, полученный от людей, и это давление подпитывает экономику "отмывания данных" промышленного масштаба. Вебскрейперы обходят защиту, похищают данные и продают их клиентам. Reddit — главная мишень, потому что это одна из крупнейших коллекций человеческих разговоров".
Он также охарактеризовал ответчиков Oxylabs, AWM Proxy и SerpApi как "хрестоматийные примеры незаконного поведения", которые маскируют свою деятельность и похищают контент Reddit из поиска Google. По его словам, Perplexity добровольно покупала данные этих сервисов вместо заключения официального контракта с Reddit.
В ответ представитель Perplexity Джесси Двайер заявил в комментарии The Verge, что компания еще не получила иск, но готова защищать свои позиции: "Мы всегда будем решительно бороться за права пользователей на свободный и справедливый доступ к публичным знаниям. Наш подход остается принципиальным и ответственным, поскольку мы предоставляем фактические ответы с помощью точного искусственного интеллекта и не потерпим угроз открытости и общественным интересам".
Ранее Anthropic согласилась выплатить не менее 1,5 миллиарда долларов для урегулирования коллективного иска о нарушении авторских прав, в котором ее обвиняли в использовании миллионов пиратских книг для обучения своих языковых моделей Claude. Эта сделка станет крупнейшим в истории урегулированием дела такого типа и предусматривает уничтожение Anthropic наборов данных с пиратскими материалами.