Моделі OpenAI «запам’ятовували» захищений авторським правом контент
Моделі OpenAI «запам’ятовували» захищений авторським правом контент

Моделі OpenAI «запам’ятовували» захищений авторським правом контент

Нове дослідження підтверджує твердження про те, що OpenAI тренував принаймні деякі зі своїх моделей штучного інтелекту на захищеному авторським правом вмісті.

OpenAI втягнута в позови авторів, програмістів та інших правовласників, які звинувачують компанію у використанні їхніх робіт — книг, кодових баз тощо — для розробки своїх моделей без дозволу. OpenAI вже давно заявляє про захист добросовісного використання , але позивачі в цих справах стверджують, що в законодавстві США про авторське право немає виключень для навчальних даних.

Дослідження, співавторами якого були дослідники з Вашингтонського, Копенгагенського та Стенфордського університетів, пропонує новий метод ідентифікації навчальних даних, «запам’ятованих» моделями за API, такими як OpenAI.

Моделі є механізмами прогнозування. Навчаючись на великій кількості даних, вони вивчають шаблони — так вони можуть генерувати есе, фотографії тощо. Більшість вихідних даних не є дослівними копіями навчальних даних, але через те, як моделі «навчаються», деякі неминуче є такими. Було виявлено, що моделі зображень відвергають скріншоти з фільмів, на яких вони навчалися , тоді як мовні моделі ефективно плагіатують статті новин .

Метод дослідження спирається на слова, які співавтори називають «високо подивовими» — тобто слова, які виділяються як незвичайні в контексті більшої кількості робіт. Наприклад, слово «радар» у реченні «Ми з Джеком сиділи абсолютно нерухомо, коли радар гудів» буде вважатися дуже несподіванкою, оскільки статистично менш імовірно, що воно з’явиться перед словом «гудіння», ніж такі слова, як «двигун» або «радіо».

Співавтори дослідили кілька моделей OpenAI, у тому числі GPT-4 і GPT-3.5, на ознаки запам’ятовування, видаливши дуже несподівані слова з уривків художніх книг і публікацій New York Times, і спробували моделі «вгадати», які слова були замасковані. Якщо моделям вдалося вгадати правильно, то, швидше за все, вони запам’ятали фрагмент під час навчання, підсумували співавтори.

Моделі OpenAI «запам’ятовували» захищений авторським правом контент - Фото 1

Згідно з результатами тестів, GPT-4 виявив ознаки запам’ятовування частин популярних художніх книг, включаючи книги в наборі даних, що містить зразки захищених авторським правом електронних книг під назвою BookMIA. Результати також свідчать про те, що модель запам’ятовувала частини статей New York Times, хоча й з порівняно меншою швидкістю.

Абхілаша Равічандер, докторант Вашингтонського університету та співавтор дослідження, сказав TechCrunch, що результати проливають світло на моделі «спірних даних», на яких, можливо, навчалися.

«Для того, щоб мати великі мовні моделі, які заслуговують на довіру, нам потрібні моделі, які ми можемо досліджувати, перевіряти та досліджувати науково», — сказав Равічандер. «Наша робота спрямована на надання інструменту для дослідження великих мовних моделей, але існує реальна потреба у більшій прозорості даних у всій екосистемі».

OpenAI давно виступає за  пом’якшення обмежень  на розробку моделей із використанням захищених авторським правом даних. Попри те, що компанія має певні ліцензійні угоди щодо вмісту та пропонує механізми відмови, які дозволяють власникам авторських прав позначати вміст, який вони не хотіли б використовувати для навчальних цілей, вона лобіювала кілька урядів щодо кодифікації правил «чесного використання» щодо підходів до навчання ШІ.

Джерело матеріала
loader
loader