DeepSeek шокував Кремнієву долину
DeepSeek шокував Кремнієву долину

DeepSeek шокував Кремнієву долину

DeepSeek став вірусним після того, як його моделі штучного інтелекту змусили аналітиків і технологів з Уолл-стріт засумніватися, чи зможуть США зберегти лідерство в гонці штучного інтелекту та чи збережеться попит на мікросхеми штучного інтелекту. DeepSeek навіть стверджує, що його модель «міркування» R1 працює так само добре, як і модель o1 OpenAI на ключових тестах. 

Але звідки взявся DeepSeek і як він так швидко здобув міжнародну популярність?

Походження трейдерів DeepSeek

DeepSeek підтримується High-Flyer Capital Management, китайським кількісним хедж-фондом, який використовує штучний інтелект для прийняття торгових рішень.

У 2015 році ентузіаст штучного інтелекту Лян Венфен став співзасновником High-Flyer. Венфен, який, як повідомляється, почав займатися трейдингом, коли був студентом Чжецзянського університету, у 2019 році запустив High-Flyer Capital Management як хедж-фонд, який зосереджується на розробці та впровадженні алгоритмів штучного інтелекту.

У 2023 році High-Flyer заснувала DeepSeek як лабораторію, що займається дослідженням інструментів ШІ окремо від фінансового бізнесу. Завдяки High-Flyer як одному з інвесторів лабораторія відокремилася у власну компанію, яка також називається DeepSeek.

З першого дня DeepSeek створив власні кластери центрів обробки даних для навчання моделей. Але, як і інші компанії штучного інтелекту в Китаї, DeepSeek постраждала від заборони США на експорт апаратного забезпечення . Щоб навчити одну зі своїх останніх моделей, компанія була змушена використовувати чіпи Nvidia H800, менш потужну версію чіпа, H100, доступну для американських компаній.

Кажуть, що технічна команда DeepSeek перекошує молодь. Повідомляється, що компанія агресивно набирає докторантів ШІ з провідних китайських університетів. Згідно з The New York Times, DeepSeek також наймає людей без будь-якого досвіду в інформатиці, щоб допомогти своїм технологам краще зрозуміти широкий спектр тем.

Сильні моделі DeepSeek

DeepSeek представив свій перший набір моделей — DeepSeek Coder, DeepSeek LLM і DeepSeek Chat — у листопаді 2023 року. Але галузь штучного інтелекту почала розвиватися лише навесні минулого року, коли стартап випустив сімейство моделей DeepSeek-V2 наступного покоління. почав помічати.

DeepSeek-V2, універсальна система аналізу тексту та зображень, добре показала себе в різних тестах штучного інтелекту — і була набагато дешевшою в експлуатації, ніж аналогічні моделі на той час. Це змусило внутрішніх конкурентів DeepSeek, зокрема ByteDance та Alibaba, знизити ціни на використання деяких своїх моделей і зробити інші повністю безкоштовними.

DeepSeek-V3 , запущений у грудні 2024 року, лише додав DeepSeek слави.

Відповідно до внутрішнього порівняльного тестування DeepSeek, DeepSeek V3 перевершує як завантажувані, відкрито доступні моделі, як-от Meta's  Llama , так і «закриті» моделі, до яких можна отримати доступ лише через API, як-от OpenAI GPT-4o .

Не менш вражаючою є модель «міркування» DeepSeek R1. DeepSeek, випущений у січні, стверджує, що R1 працює так само добре, як і модель OpenAI o1 за ключовими тестами .

Будучи моделлю міркування, R1 ефективно перевіряє факти, що допомагає йому уникнути деяких пасток, які зазвичай спотикають моделі. Моделі міркування займають трохи більше часу — зазвичай секунди або хвилини — щоб знайти рішення порівняно з типовою моделлю без міркування. Перевагою є те, що вони, як правило, більш надійні в таких сферах, як фізика, природничі науки та математика.

Однак у R1, DeepSeek V3 та інших моделей DeepSeek є недоліки. Будучи штучним інтелектом, розробленим у Китаї, вони підлягають  порівняльному аналізу  китайським регулятором Інтернету, щоб переконатися, що його відповіді «втілюють основні соціалістичні цінності». Наприклад, у чат-боті DeepSeek R1 не відповідатиме на запитання про площу Тяньаньмень чи автономію Тайваню.

Підривний підхід

Якщо у DeepSeek є бізнес-модель, то незрозуміло, що це за модель. Компанія оцінює свої продукти та послуги набагато нижче ринкової вартості — і роздає іншим безкоштовно.

Як розповідає DeepSeek, прорив у ефективності дозволив йому підтримувати надзвичайну конкурентоспроможність за витратами. Однак деякі експерти заперечують цифри, надані компанією.

У будь-якому випадку розробники скористалися моделями DeepSeek, які не є відкритими, як це прийнято розуміти, але доступні за дозвільними ліцензіями, які дозволяють комерційне використання. За словами Клема Деланга, генерального директора Hugging Face, однієї з платформ, на якій розміщені моделі DeepSeek, розробники Hugging Face створили понад 500 «похідних» моделей R1 , які разом зібрали 2,5 мільйона завантажень.

Успіх DeepSeek у боротьбі з більшими та відомішими конкурентами був описаний як «штучний інтелект, що перевертає» та «надмірний розквіт». Успіх компанії принаймні частково спричинив падіння ціни акцій Nvidia на 18% у понеділок і викликав публічну реакцію генерального директора OpenAI Сема Альтмана.

Корпорація Майкрософт оголосила, що DeepSeek доступний у її службі Azure AI Foundry , платформі Microsoft, яка об’єднує служби ШІ для підприємств під одним банером. Коли його запитали про вплив DeepSeek на витрати Meta на штучний інтелект під час телефонної розмови про прибутки за перший квартал, генеральний директор Марк Цукерберг сказав, що витрати на інфраструктуру штучного інтелекту й надалі будуть «стратегічною перевагою» для Meta.

Що стосується майбутнього DeepSeek, поки неясно. Покращені моделі є даністю. Але уряд США, схоже, починає насторожено ставитися до того, що він сприймає як шкідливий зовнішній вплив .

Джерело матеріала
Згадувані персони
loader