/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F2b9dcccc74562fc940f12ee50dcbc6c0.jpg)
Схоже, що DeepSeek використовував Gemini від Google для навчання своєї останньої моделі
Минулого тижня китайська лабораторія DeepSeek випустила оновлену версію своєї моделі штучного інтелекту R1 для мислення , яка добре показує результати в низці математичних та кодувальних тестів. Компанія не розкрила джерело даних, які вона використовувала для навчання моделі, але деякі дослідники штучного інтелекту припускають, що принаймні частина даних походить з сімейства штучного інтелекту Gemini від Google.
Сем Паеч, розробник з Мельбурна, який створює оцінки «емоційного інтелекту» для штучного інтелекту, опублікував те, що, за його словами, є доказом того, що остання модель DeepSeek була навчена на вихідних даних Gemini. Модель DeepSeek під назвою R1-0528 віддає перевагу словам і виразам, подібним до тих, які надає перевагу Google Gemini 2.5 Pro, повідомив Паеч у дописі на X.
Це не є незаперечним доказом. Але інший розробник, псевдонімний творець «оцінки свободи слова» для штучного інтелекту під назвою SpeechMap , зазначив, що сліди моделі DeepSeek — «думки», які генерує модель, працюючи над висновком, — «читаються як сліди Gemini».
DeepSeek і раніше звинувачували у навчанні на даних суперницьких моделей штучного інтелекту. У грудні розробники помітили , що модель DeepSeek V3 часто ідентифікувала себе як ChatGPT, платформу чат-ботів OpenAI на базі штучного інтелекту, що свідчить про те, що вона могла бути навчена на журналах чату ChatGPT.
Раніше цього року OpenAI повідомила Financial Times, що знайшла докази, що пов'язують DeepSeek з використанням дистиляції – методу навчання моделей штучного інтелекту шляхом вилучення даних з більших та потужніших моделей. За даними Bloomberg , Microsoft, тісний партнер та інвестор OpenAI, виявила, що наприкінці 2024 року великі обсяги даних витікали через облікові записи розробників OpenAI – облікові записи, які, на думку OpenAI, пов'язані з DeepSeek.
Дистиляція — не рідкість, але умови обслуговування OpenAI забороняють клієнтам використовувати результати моделей компанії для створення конкуруючого ШІ.
Щоб було зрозуміло, багато моделей неправильно ідентифікують себе та сходяться на одних і тих самих словах і фразах. Це тому, що відкритий інтернет, звідки компанії, що займаються штучним інтелектом, отримують основну частину своїх навчальних даних, засмічується штучним інтелектом . Контент -ферми використовують штучний інтелект для створення клікбейтів , а боти заполонили Reddit та X.
Це «забруднення», якщо хочете, досить ускладнило ретельну фільтрацію результатів ШІ з навчальних наборів даних.
Однак експерти зі штучного інтелекту, такі як Натан Ламберт, дослідник некомерційного інституту досліджень штучного інтелекту AI2, не вважають виключеним, що DeepSeek навчався на даних з Gemini від Google.
«Якби я був DeepSeek, я б точно створив купу синтетичних даних з найкращої моделі API», – написав Ламберт у дописі на X. «[DeepSeek] не вистачає графічних процесорів і має багато грошей. Це буквально фактично більше обчислювальних ресурсів для них».
Частково для запобігання дистиляції, компанії, що займаються штучним інтелектом, посилюють заходи безпеки.
У квітні OpenAI почав вимагати від організацій проходження процесу перевірки особи для доступу до певних розширених моделей. Для цього процесу потрібне посвідчення особи, видане урядом однієї з країн, що підтримуються API OpenAI; Китаю немає у списку.
В іншому місці Google нещодавно почав «підсумовувати» трасування, згенеровані моделями, доступними через його платформу для розробників AI Studio, що ускладнює навчання продуктивних моделей-конкурентів на трасах Gemini. У травні Anthropic заявила, що почне підсумовувати трасування власної моделі, посилаючись на необхідність захисту своїх «конкурентних переваг».

