Anthropic знищила мільйони друкованих книг, щоб створити свої моделі штучного інтелекту Claude
Anthropic знищила мільйони друкованих книг, щоб створити свої моделі штучного інтелекту Claude

Anthropic знищила мільйони друкованих книг, щоб створити свої моделі штучного інтелекту Claude

Дані за будь-яку ціну

У лютому 2024 року Anthropic найняла Тома Терві, колишнього керівника партнерських відносин проєкту сканування книг Google Books. Йому доручили отримати "всі книги світу". Цей стратегічний крок був спрямований на відтворення успішного підходу Google до оцифрування книг, який витримав юридичні виклики, пов'язані з авторськими правами, та встановив ключові прецеденти добросовісного використання. Але на відміну від Google Books, який здебільшого використовував запатентований неруйнівний процес сканування, Anthropic застосувала деструктивний метод, повідомляє 24 Канал з посиланням на ArsTechnica.

Нижча вартість деструктивного процесу, ймовірно, переважала над необхідністю збереження фізичних книг. Це стало наслідком критичної потреби у якісних даних, спричиненої перегонами на ринку ШІ.

Цікаво, що суддя постановив: така деструктивна операція сканування кваліфікується як добросовісне використання. Це стало можливим лише тому, що Anthropic спочатку легально придбала книги, знищила кожну друковану копію після сканування та зберігала цифрові файли внутрішньо, не розповсюджуючи їх. Суддя порівняв цей процес зі "збереженням простору" через перетворення формату та визнав його трансформаційним.

Потреба у високоякісних даних

Основною рушійною силою таких дій є ненаситний попит індустрії ШІ на високоякісний текст. Для розуміння, чому Anthropic прагнула сканувати мільйони книг, важливо знати, що дослідники ШІ створюють великі мовні моделі (LLM), такі як ChatGPT і Claude, шляхом подачі мільярдів слів у нейронну мережу. Під час навчання система ШІ багаторазово обробляє текст, будуючи статистичні зв'язки між словами та поняттями. Якість навчальних даних безпосередньо впливає на можливості отриманої моделі ШІ. Моделі, навчені на добре відредагованих книгах та статтях, зазвичай генерують більш послідовні та точні відповіді, ніж ті, що треновані на низькоякісному тексті.

Видавці юридично контролюють контент, який компанії ШІ відчайдушно бажають, проте не завжди хочуть вести переговори щодо ліцензії. Але закон має лазівку: купивши фізичну книгу, можна робити з цією копією все, що завгодно, включаючи її знищення. Це означало, що купівля фізичних книг надавала законний шлях для отримання даних.

Купівля вживаних фізичних книг повністю обійшла ліцензування, водночас забезпечуючи високоякісний, професійно відредагований текст, необхідний моделям ШІ. Деструктивне сканування виявилося найшвидшим способом оцифрування мільйонів томів. Компанія витратила "багато мільйонів доларів" на цю операцію купівлі та сканування, часто купуючи вживані книги оптом. Далі книги виймали з палітурок, сторінки обрізали до потрібних розмірів, сканували у PDF-файли, а потім усі паперові оригінали викидали.

Теги по теме
Техно
Источник материала
loader
loader