Сайт The Atlantic исследовал набор данных, который использовался для обучения моделей ИИ, принадлежащих Apple, Anthropic и Nvidia в частности, и обнаружил, что опасения работников киноотрасли относительно новой технологии далеко небезосновательны.
В набор были включены элементы из 53 000 фильмов и 85 000 сериалов: в частности все ленты, номинированные на «лучший фильм» в течение 1950-2016 годов, около 600 эпизодов «Симпсонов», 170 эпизодов «Сайнфелда», 45 эпизодов «Твин Пикс», а также все серии «Во все тяжкие» и «Клана Сопрано». Также набор данных содержал «живые» диалоги из трансляций «Золотого глобуса» и «Оскара».
The Atlantic отмечает, что тексты, представленные в наборе данных — не оригинальные сценарии, а субтитры, взятые с сайта OpenSubtitles.org. Пользователи обычно их извлекают из DVD, Blu-ray и стримингов с помощью программного обеспечения оптического распознавания символов, а дальше загружают на сайт (сейчас там размещено более 9 миллионов файлов с субтитрами на более чем 100 языках и диалектах).
Причем некоторые компании упоминают использование субтитров в своих исследовательских статьях: так, Anthropic обучала на них чат-бота Claude, Meta — группу больших языковых моделей под названием Open Pre-trained Transformer (OPT), Apple — LLM, которые могут работать на iPhone, а Nvidia — NeMo Megatron LLM. Так же активно OpenSubtitles.org «юзали» Salesforce, Bloomberg, EleutherAI, Databricks, Cerebras и другие разработчики ИИ.
Apple отметила в комментарии, что ее LLM предназначены «исключительно для исследований», тогда как Salesforce сказала, что набор данных «никогда не использовался для информирования или улучшения любых предложений продуктов компании». Остальные упомянутые в статье компании, либо отказались от комментариев, либо не ответили на запросы.
Вопрос о легальности использования данных для обучения искусственного интеллекта остается открытым — с момента «бума» текстовых ботов после запуска ChatGPT. Прозрачность компаний все еще достаточно низкая и заставить их раскрыть данные, сможет разве что суд, но, случай с OpenAI, показал, что и эта информация может внезапно исчезнуть.
Кажется, сценарист драмы «Во все тяжкие» Винс Гиллиган что-то знал, когда в прошлом году назвал генеративный искусственный интеллект «чрезвычайно сложной и энергоемкой формой плагиата» — интересно, как бы он отреагировал на то, что технология уже во всю распоряжается написанными им диалогами?