Як і навіщо Україна будує власний штучний інтелект
Як і навіщо Україна будує власний штучний інтелект

Як і навіщо Україна будує власний штучний інтелект

Кінець 2025 року став моментом істини для українського технологічного сектору. Те, що ще нещодавно здавалося просто гучною заявою Мінцифри, тепер перетворилося на реальний код і сервери. Україна почала створювати власну велику мовну модель (LLM) і навіть оголосила конкурс на назву. Це означає, що ми перестаємо бути просто користувачами чужих технологій і починаємо будувати своє, стаючи в один ряд із такими країнами, як Франція чи Японія, які теж вирішили не залежати від американських корпорацій.

Давайте відверто: створення національної LLM — це не спроба наздогнати хайп, а холоднокровний розрахунок. У світі, де дані коштують дорожче за нафту, покладатися лише на OpenAI (творців ChatGPT), Microsoft чи Google стає небезпечно. Якщо ти не контролюєш алгоритми, які обробляють твої державні таємниці, ти не контролюєш ситуацію. Україна це зрозуміла і почала діяти.

Чому нам не підходять чужі рішення?

Є три прості причини, чому Україні потрібен власний штучний інтелект.

Перша — це безпека. Тут все просто: секретна інформація має залишатися вдома. Уявіть собі державний реєстр або аналітику з фронту. Якщо ми завантажуємо ці дані в умовний ChatGPT, вони фізично летять на сервери у США або Європу. Навіть якщо канал зв'язку захищений, самі дані опиняються «у гостях».

Для країни у стані війни це неприпустимий ризик. Власна модель дозволяє зробити так звану on-premise-інсталяцію. Простими словами: ми ставимо модель на українські сервери, повністю відрізаємо їх від зовнішнього інтернету, і вона працює всередині захищеного контуру. Ніхто ззовні не має доступу. Жоден байт інформації про переміщення військ чи персональні дані громадян не покидає межі нашої цифрової фортеці.

Друга причина — гроші. Тут працює чиста математика. Західні моделі створювалися англомовними інженерами для англомовних користувачів. Вони думають англійською. Коли ви пишете їм українською, вмикається токенізація — процес, коли машина розбиває слова на шматки (токени), щоб їх зрозуміти.

І тут постає проблема: одне англійське слово — це зазвичай один токен. Одне українське слово через кирилицю та особливості мови розбивається на три-чотири токени. А платимо ми саме за токени. Тобто користуватися західним ШІ для роботи з українськими текстами нам коштує у 3-4 рази дорожче, ніж американцям. Свій токенайзер, який нормально розуміє українську, знижує ці витрати на 60–70%. Коли йдеться про державні масштаби і мільярди запитів, економія виходить колосальна.

Третя причина — це наш контекст. Західні нейромережі вчилися на всьому інтернеті. А в інтернеті, на жаль, дуже багато російської пропаганди та викривленої історії. Тому іноді навіть найрозумніший західний ШІ може видати нісенітницю про українську історію або «не все так однозначно» щодо Криму. Наша модель вчитиметься на перевірених джерелах. Для неї Крим — це Україна, без варіантів і галюцинацій.

На чому все це працює: чому обрали Gemma?

Коли інженери вирішували, як будувати український ШІ, у них було два шляхи. Перший — робити все з нуля. Це круто, але дуже довго і неймовірно дорого. Потрібні тисячі відеокарт, яких зараз у світі бракує, і роки часу. У нас немає ні того, ні іншого.

  • Тому обрали другий шлях — взяти якісну основу і переробити її під себе. Фундаментом стала модель Gemma 3 від Google. Чому саме вона? По-перше, вона відкрита. Це не чорна скринька, як у деяких конкурентів. Наші програмісти бачать увесь код, можуть його перевірити і гарантувати, що там немає ніяких прихованих закладок.
  • По-друге, Gemma 3 — мультимодальна. Вона вміє працювати не тільки з текстом, а й з картинками та програмним кодом. Це дуже важливо на майбутнє. Наприклад, щоб аналізувати документи, де є і текст, і графіки, або допомагати писати код для державних реєстрів.
  • По-третє, у неї велика пам'ять (контекстне вікно). Вона може за раз прочитати і проаналізувати величезний документ: наприклад, законопроєкт або технічну інструкцію до складної техніки, не забуваючи початок тексту, доки дочитає до кінця.

І ще один важливий момент. Розглядали й китайські моделі (Qwen чи DeepSeek), які зараз дуже популярні й потужні. Але від них відмовилися відразу. Будувати державну безпеку на софті з країни, яка дружить з агресором, нерозумно. Тому вибір був очевидний.

Де брали дані: цифровий суботник

Найрозумніший ШІ стане дурнем, якщо вчити його на смітті. А український інтернет, на жаль, повний сміття: погані переклади з російської, суржик, дубльовані новини. Якщо згодувати це моделі, вона й говоритиме так само.

Тому команда проєкту пішла складним шляхом — не просто завантажили інтернет, а зібрали дані від 90 державних установ. Це нагадувало велику цифрову археологію. Юристи дали доступ до реєстрів судових рішень і текстів законів, щоб модель знала правильну юридичну мову, а не вигадувала терміни. Науковці та видавництва поділилися підручниками та монографіями: це дасть моделі глибокі знання, а не поверхневі факти з вікіпедії.

Архіви почали оцифровувати старі документи. Це потрібно, щоб ШІ знав нашу реальну історію з першоджерел, а не з переказів блогерів. Але найважливіший шар даних — це інформація про війну. Модель вчать на реальних звітах і документах, звісно, без секретної інформації. Вона має розуміти контекст війни краще за будь-якого іноземного журналіста.

Усе це ретельно чистили лінгвісти та історики. Вони прибирали помилки, російські кальки і токсичний контент. Врешті вийшов датасет «Малюк» — понад 113 гігабайтів ідеального чистого тексту. Це золотий стандарт, на якому вчитиметься наш цифровий мозок.

Хто за це платить і як це працює технічно: партнерство з «Київстар»

Такий проєкт дорогий. Дуже дорогий. Але держава вирішила не брати гроші з бюджету, який і так тріщить по швах через війну. Пішли шляхом партнерства з бізнесом. Головним інвестором став «Київстар».

Для компанії це не подарунок країні, а бізнес-інвестиція. У «Київстар» розуміють, що за рік-два кожна велика компанія в Україні захоче мати свій захищений ШІ. Банки, логістика, агрохолдинги — усім це буде потрібно. І «Київстар» планує стати тим, хто їм цю послугу продасть. Держава ж, в особі Мінцифри та центру WINWIN AI Center of Excellence, виступає архітектором і замовником правил гри.

Технічно все влаштовано хитро. Щоб навчити модель з нуля розуміти мову, потрібні суперпотужні комп'ютери, яких в Україні просто немає. Купити їх зараз нереально через світовий дефіцит і санкційні обмеження логістики. Тому домовилися з Google: первинне навчання відбувається на їхніх хмарних потужностях. Це безпечно, бо на цьому етапі у модель не вантажать жодних секретів, вона просто вчиться розуміти структуру мови.

Але Google — не єдиний технологічний гігант у цій грі. У листопаді 2025 року Україна зробила ще один потужний хід, запустивши спільну ініціативу з NVIDIA. Це вже друга велика історія співпраці після створення АI Factory — інфраструктури для пришвидшених обчислень. Якщо Google допомагає з базовою моделлю, то NVIDIA надає «залізо» та софт для розбудови національної AI-інфраструктури. Ми отримали доступ до їхнього програмного стеку, що дозволяє навчати та розгортати моделі значно швидше і дешевше, а головне — робити це на власних потужностях.

А щоб підкреслити, що це проєкт національного масштабу, Мінцифри та «Київстар» вирішили не затверджувати назву в кабінетах. Наприкінці листопада стартував всеукраїнський конкурс: варіанти збирають у соцмережах, а фінальну назву оберуть голосуванням у «Дії». Авторам найкращих ідей обіцяють топові гаджети, але головне тут — символізм. Українці самі називають технологію, яка захищатиме їхні дані.

Навіщо це все: від «Дії» до фронту

Національна LLM — це не іграшка, щоб генерувати привітання з днем народження. Це інструмент для роботи.

По-перше, це змінить «Дію». Зараз «Дія» — це крутий каталог послуг. Але іноді там важко щось знайти, якщо не знаєш точної назви довідки. Новий ШІ перетворить її на нормального помічника.

Ви просто пишете (або кажете): «Я хочу відкрити кав'ярню, що мені треба?». І система не кидає у вас посиланнями на закони, а дає чіткий план: «Тобі треба ФОП такої групи, ліцензія така-то, дозвіл від пожежників ось тут». Власне, саме тут з’явиться перший реальний результат співпраці з NVIDIA — суверенна модель Diia AI LLM. Вона навчена на українському законодавстві та публічних послугах і стане мозком для всієї екосистеми «Дії» — від асистента на порталі до майбутнього голосового помічника. Бюрократія зникне як явище, залишиться тільки сервіс.

По-друге, це освіта. У нас є застосунок «Мрія». ШІ зробить із нього персонального репетитора для кожної дитини. Він бачитиме, що учень не зрозумів тему з математики, і пояснить її ще раз, але іншими словами, простішими. Або підкине цікаві задачі. Вчителям це теж допоможе — менше часу на перевірку зошитів, більше на спілкування з дітьми.

По-третє, і це найголовніше, — оборона. Сучасна війна — це війна інформації. Дрони літають тисячами, супутники знімають терабайти фото, радіорозвідка перехоплює години розмов. Людина просто фізично не може це все продивитися і прослухати. А ШІ може.

Національна модель, яка працює на закритому сервері в бункері, може за секунди проаналізувати тисячі звітів і знайти неочевидні зв'язки. Наприклад, зрозуміти, що ворог готує наступ, просто співставивши дані про рух вантажівок, радіопереговори і погоду. Вона може читати трофейні документи і миттєво робити вижимку головного. Це та перевага, яка рятує життя.

Що може піти не так і плани на майбутнє

Звісно, не все так ідеально. Головна хвороба всіх таких моделей — вони можуть брехати. ШІ може дуже переконливо вигадати неіснуючий закон або історичний факт. Це називають галюцинаціями. Якщо ШІ пише вірші — це нормально, це творчість. Якщо він дає юридичну пораду — це катастрофа.

Щоб цього не сталося, розробники використовують технологію RAG (Retrieval-Augmented Generation). Звучить страшно, але суть проста: ми забороняємо моделі вигадувати відповіді з голови. Ми кажемо їй: «Ось тобі бібліотека перевірених законів. Відповідай на питання тільки на основі цих книг. Якщо в книзі немає відповіді — так і скажи, не вигадуй».

Крім того, зараз модель жорстко тестують. Спеціальні команди білих хакерів намагаються її зламати, заплутати, змусити лаятися або видати секрети. Це називається Red Teaming. Краще ми зламаємо її зараз самі, ніж це зроблять вороги потім.

Цей проєкт тільки початок. Мінцифри планує, що до 2030 року Україна увійде до топ-3 країн, які найкраще впровадили ШІ у державне управління. Це амбітно, але реально.

Національна модель стане фундаментом. На ньому наші стартапи зможуть будувати свої продукти для юристів, медиків, істориків. Їм не треба буде платити шалені гроші американцям за доступ до GPT-4. У них буде свій, український, дешевший і безпечніший інструмент.

По суті, ми зараз будуємо цифрову незалежність. Ми вже довели, що можемо воювати на полі бою. Тепер доводимо, що можемо воювати і будувати своє у технологіях. І це, мабуть, найважливіший підсумок 2025 року.

Источник материала
loader
loader