Здається, DeepSeek пограбував Google Gemini, щоб навчити свою найновішу ШІ-модель
Здається, DeepSeek пограбував Google Gemini, щоб навчити свою найновішу ШІ-модель

Здається, DeepSeek пограбував Google Gemini, щоб навчити свою найновішу ШІ-модель

Підозри щодо навчання на Gemini

Сем Печ, розробник з Мельбурна, який створює оцінки "емоційного інтелекту" для ШІ, опублікував те, що він вважає доказами навчання останньої моделі DeepSeek на вихідних даних Gemini. За словами Печа, модель DeepSeek R1-0528 надає перевагу словам і виразам, які схожі на ті, що використовує Google Gemini 2.5 Pro. Він поділився цими спостереженнями у своєму дописі на платформі X, повідомляє 24 Канал.

Хоча це не є неспростовним доказом, інший розробник, відомий як творець "оцінки свободи слова" для ШІ під назвою SpeechMap, також зазначив, що сліди моделі DeepSeek – тобто "думки", які модель генерує під час роботи над висновком – "читаються як сліди Gemini".

DeepSeek уже стикався зі звинуваченнями у навчанні на даних від конкуруючих моделей ШІ раніше. У грудні розробники помітили, що модель DeepSeek V3 часто ідентифікувала себе як ChatGPT, чат-бот від OpenAI. Це могло свідчити про її навчання на логах чатів ChatGPT.

На початку цього року OpenAI повідомила виданню Financial Times, що виявила докази зв'язку DeepSeek з використанням дистиляції. Дистиляція — це техніка, яка використовується для навчання ШІ-моделей шляхом вилучення даних з більших, більш потужних моделей. За інформацією Bloomberg, Microsoft, яка є близьким партнером та інвестором OpenAI, наприкінці 2024 року виявила великий витік даних через акаунти розробників OpenAI. OpenAI вважає, що ці акаунти могли бути пов'язані з DeepSeek.

Дистиляція не є рідкісною практикою. Однак, умови використання сервісів OpenAI прямо забороняють клієнтам використовувати вихідні дані компанії для створення конкуруючих моделей ШІ.

Довести буде складно

Довести використання даних від інших моделей у навчальних наборах даних стало складнішим через "забруднення", яке є наслідком збору інформації з відкритого інтернету. Відкритий веб, який є основним джерелом даних для навчання ШІ-компаній, дедалі більше наповнюється контентом, згенерованим ШІ. Контент-ферми використовують чат-боти для створення клікбейту, а потім наповнюють цим такі платформи, як Reddit та X. Після цього інші моделі ШІ вчаться вже на цьому згенерованому контенті, а не на звичайних текстах, створених людиною. Це "забруднення" ускладнює ретельну фільтрацію вихідних даних з навчальних наборів.

Попри це, експерти, такі як Натан Ламберт, дослідник неприбуткового інституту досліджень штучного інтелекту AI2, вважають, що навчання DeepSeek на даних від Google Gemini є дуже ймовірним. Ламберт зазначив у своєму дописі на X, що якби він був розробником DeepSeek, він би "точно створив тонни синтетичних даних" з найкращої моделі API на ринку. Він пояснює, що DeepSeek "відчуває нестачу в графічних процесорах, але має багато грошей". Використання синтетичних даних від потужної моделі є для них ефективною стратегією.

Теги за темою
Техно
Джерело матеріала
loader
loader