ИИ-поисковик Perplexity обходит протокол, используемый с 1994 года, собирая абсолютно все данные с сайтов и выдавая потом сгенерированный на их основе контент за свой.
Стартап по ИИ-поиску Perplexity хочет изменить то, как люди используют интернет, но делает это, нарушая правила сетевого этикета. Подробности сообщило издание Gizmodo.
Согласно отчету разработчика Робба Найта, опубликованному на этой неделе, который был подтвержден журналистами медиа Wired, компания Perplexity игнорирует один из главных веб-стандартов — так называемый Robots Exclusion Protocol (Стандарт исключения для роботов), ограничивающий доступ поисковым роботам к содержимому на http-серверах при помощи текстового файла robots.txt, находящегося в корне сайтов. Стандарт используется большинством поисковых систем с 1994 года. Файл robots.txt содержит набор инструкций, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны запрашиваться поисковыми роботами.
Служба Perplexity находит в интернете и при помощи ИИ обобщает статьи для предоставления пользователям надежных ответов и нивелирования необходимости переходить по разным ссылкам. Эксперты Wired и Робб Найт обнаружили, что Perplexity игнорирует файлы robots.txt, которые должны блокировать доступ поисковым роботам. Оказалось, что стартап использует незарегистрированный IP-адрес для обхода этих файлов и совершает полный сбор данных (скрапинг). Wired заблокировал робота Perplexity в начале 2024 года, но поисковая система с искусственным интеллектом продолжала скрапинг и резюмировала статьи издания.
В Perplexity заявили о соблюдении Стандарта исключения для роботов. Тем не менее, компании грозят судом за нарушение авторских прав. Так издание Forbes обвинило ИИ-поисковик в копировании своих репортажей без надлежащего указания авторства. Речь идет об эксклюзивном материале, посвященном проекту бывшего генерального директора Google Эрика Шмидта по созданию ИИ-дронов. Perplexity создала сгенерированные при помощи ИИ статьи, подкасты и видео с использованием текста и изображений Forbes.
Поисковик Perplexity имеет еще одну проблему — он перенаправляет трафик в интернете, но, в отличие от Google, направляет его не на веб-страницы, с которых поступает информация, а забирает его себе. Дело в том, что ИИ Perplexity собирает данные и на их основе пишет подробные статьи, благодаря которым пользователям нет нужды переходить на веб-сайты, откуда была взята информация. Это, конечно, нарушает бизнес-модель цифровых медиа.
Например, OpenAI наладила партнерские отношения с медиакомпаниями для решения аналогичной проблемы с трафиком и платит им за лицензию на контент, а Perplexity, которая работает над такими же партнерскими отношениями по контенту, вместо того, чтобы платить фиксированную сумму, как OpenAI, стремится разделить расходы. На данный момент компания не заключила ни одного партнерского соглашения и, похоже, обходит платный доступ, проводя полный скрапинг сайтов, чтобы получить всю информацию, необходимую для обеспечения ответов от ИИ.