Мінцифра готує до запуску власний ШІ: для чого він Україні, чи буде безпечний під час війни і коли запрацює
Мінцифра готує до запуску власний ШІ: для чого він Україні, чи буде безпечний під час війни і коли запрацює

Мінцифра готує до запуску власний ШІ: для чого він Україні, чи буде безпечний під час війни і коли запрацює

На початку 2025 року Мінцифра запустила центр ШІ – WINWIN AI Center of Excellence для інтеграції штучного інтелекту в державні процеси, зокрема в оборону, медицину, освіту та бізнес. Одна з його цілей – створення українського штучного інтелекту, мовної моделі, яка включатиме українські знання та інтегрується в українські продукти. Це має бути безпечним, зокрема й в оборонній сфері, адже інформація не виходитиме назовні, запевнюють у Мінцифрі.

Базову модель українського ШІ мають запустити до кінця цього року. 24 Канал дізнавався ексклюзивні деталі в Данила Цьвока, керівник центру розробки та впровадження ШІ-рішень у Мінцифри, про українську мовну модель – для кого вона потрібна, що в ній буде та чи буде вона безпечною.

Що таке велика мовна модель і чи здатна вона мислити як людина?

Велика мовна модель (англ. Large Language Model, LLM) – це комп’ютерна система, яка вміє працювати з людською мовою: писати тексти, перекладати, відповідати на запитання чи навіть вигадувати історії. Її назва пояснюється тим, що вона навчається на величезних обсягах текстів – від книжок і статей до сайтів та форумів. Завдяки цьому модель засвоює закономірності мови: як будуються речення, які слова найчастіше стоять поруч, як формується стиль і логіка висловлювання.

Можна уявити це так: мовна модель не розуміє світ так, як людина, але вона чудово вгадує, яке слово, фраза чи думка найімовірніше підходить у певному контексті. Це дозволяє їй виглядати розумною і спілкуватися майже як справжній співрозмовник.

Проте варто пам’ятати: LLM не мислить і не має власної думки. Вона оперує тим, що "бачила" під час навчання, і може помилятися чи "вигадувати" факти. Тому людина завжди залишається головним редактором і перевіряльником. Іншими словами, велика мовна модель – це потужний інструмент роботи зі словами, який імітує розмову та допомагає людині, але не замінює її розум.

Що зараз із українською великою мовною моделлю?

За час із запуску WINWIN команда визначила, як саме треба рухатися та що розробляти, розповідає Данило Цьвок. Ця модель базується на взаємодії бізнесу, в цьому випадку Київстару, і держави, Міністерства цифрової трансформації України. Відповідно, операційна команда на стороні Київстару безпосередньо працює над розробкою.

Операційна команда зараз розширює перелік фахівців, які будуть залучені у безпосередню розробку мовної моделі. Це опрацювання даних, створення тестових бенчмарків, побудова підходу – пайплайну, яким чином буде здійснюватися навчання великої мовної моделі. Обирається фундаментальна модель на базі open-source рішень, на якій буде відбуватися попереднє навчання (pre-training).

Активно відбувається процес комплектування команди на стороні Київстару – як операційного ядра, яке буде здійснювати технологічну складову.

Мінцифра готує до запуску власний ШІ: для чого він Україні, чи буде безпечний під час війни і коли запрацює - Фото 1

Данило Цьвок

керівник центру розробки та впровадження ШІ-рішень у Мінцифри

Ми також вийшли в публічний простір з open call на збір даних. Бізнес, державні установи, наукові спільности можуть долучитися до розробки української мовної моделі та надати дані для її навчання. Цей етап уже завершений. Зараз опрацьовується юридична складова, щоб сформувати механізм агрегування даних. Дуже важливо не порушити права інтелектуальної власності, авторські права.

Мінцифра готує до запуску власний ШІ: для чого він Україні, чи буде безпечний під час війни і коли запрацює - Фото 2
Данило Цьвок / Фото надане 24 Каналу Мінцифрою

Важливо! Уже визначено керівників напрямків координаційної робочої групи зі створення мовної моделі.

• Науково-технічний – Олексій Молчановський, керівник Офісу з інновацій УКУ, викладач факультету прикладних наук УКУ, голова Експертно-консультаційного комітету з розвитку ШІ в Україні при Мінцифрі.

• Етико-правовий – Олена Андрієнко, Chief Legal Tech Officer в Publicis Groupe Ukraine, членкиня Експертно-консультаційного комітету з розвитку ШІ в Україні при Мінцифрі.

• Культурно-історичний – Олександр Алфьоров, голова Українського інституту національної пам’яті.

• Мовознавчий – Юлія Чернобров, голова Національної комісії зі стандартів державної мови.

З боку держави триває процес визначення даних у різних інституціях, аби зрозуміти, які саме дані й у якій правовій площині можна використати для навчання. Цей етап уже завершений, каже Цьвок. Зараз опрацьовується юридична складова, щоб придумати механізм агрегування даних.

Дуже важливо не порушити права інтелектуальної власності й авторські права, – додає співрозмовник.

Мінцифра готує до запуску власний ШІ: для чого він Україні, чи буде безпечний під час війни і коли запрацює - Фото 3

Данило Цьвок

керівник центру розробки та впровадження ШІ-рішень у Мінцифри

Керівники вже є, але ми відкрито залучаємо експертів у комітети. Подавати кандидатури вже завершили, тепер будуть обрані конкретні люди.

Головні завдання такі:

  • задати рамку та надавати рекомендації розробки моделі з питань напрямків роботи комітетів, аби мінімізовувати ризики;
  • валідувати дані для навчального датасету;
  • сформувати команди експертів до обраних лідерів напрямків;
  • побудувати бенчмарки — тестові вибірки питань-відповідей, щоб оцінити якість роботи моделі в українському контексті з погляду етики й відсутності порушень прав людини.

Отже, стан справ такий, пояснює Цьвок:

  • завершується формування технологічної команди проєктного офісу на стороні Київстару;
  • завершується формування профільних комітетів робочої групи;
  • триває збір даних для навчання моделі;
  • опрацьовується побудова бенчмарків – тестів щодо роботи моделі з різних аспектів (якості, упередження, відсутності пропаганди тощо);
  • обирається базова модель для навчання.

На базі чого працюватиме українська LLM?

Українська мовна модель – не цілком новітня справа. Власне від українського там буде "начинка" – база даних, а от платформа, на якій вона працюватиме – уже готова.

Цьвок зазначає, що на ринку є моделі від великих компаній:

  • Meta (LLaMA);
  • Google (Gemini);
  • Microsoft (Phi);
  • Mistral;
  • інші.

І зараз команда обирає серед них. Є декілька критеріїв:

  • Відкритість та ліцензія.
  • Архітектура та масштабованість – здатність ефективно працювати як на високопродуктивних дата-центрах, так і у більш обмежених середовищах (edge/он-преміс).
  • Якість – базова компетентність в англійській та українській мовах, здатність до мультидоменного навчання.
  • Оптимізація ресурсів – співвідношення «якість/продуктивність/витрати на обчислення», щоб модель була економічно доцільною.
  • Безпека та контроль – підтримка механізмів alignment (відповідності цілям розробки та мети), щоб знизити ризики токсичності, упереджень, маніпуляцій.

Наприклад, для defense-домену є обмеження. Це також впливає на вибір.

Чи буде готова Мінцифри чи Київстар до того, що модель робитиме помилки?

Помилки – це природне явище, як і помилки людей під час навчання. "Ми розглядаємо розробку моделі як ітераційний процес", – наголошує Цьвок.

За його словами, спершу буде базова версія LLM, потім наступні – покращені.

Мінцифра готує до запуску власний ШІ: для чого він Україні, чи буде безпечний під час війни і коли запрацює - Фото 4

Данило Цьвок

керівник центру розробки та впровадження ШІ-рішень у Мінцифри

Коли базова версія буде готова, ми викладемо її у форматі бета-тестування. До тестування зможуть долучитися державні, громадські, наукові, освітні та інші організації. Важлива мета – збір фідбеку. Буде запропоновано механізм збору інформації про можливі галюцинації та упередження, який нівелює їх. Ми готові відкрито комунікувати ці моменти.

Формат української LLM ще визначається. У будь-якому випадку модель буде викладена на спеціалізованих ресурсах – наприклад, Hugging Face, чи інших публічних репозиторіях. Звичайно, розгорнути модель зможуть ті компанії, які матимуть відповідні потужності для цього, каже Цьвок.

Мінцифра готує до запуску власний ШІ: для чого він Україні, чи буде безпечний під час війни і коли запрацює - Фото 5

Данило Цьвок

керівник центру розробки та впровадження ШІ-рішень у Мінцифри

Водночас ми думаємо над тим, як забезпечити тестові потужності для більш широкого кола користувачів. Це одне з питань яке теж є відкритим у нашій спільній роботі з Київстаром. Запуск чат-бота технічно нескладний, але щоб забезпечити інфраструктуру, потрібне відповідне фінансування Тож ми працюємо над тим, щоб бізнес, громадяни та організації могли спробувати використовувати модель не лише на рівні розробки у своїх рішеннях, а й у форматі взаємодії користувачів з чатом. В будь-якому разі, точно можемо сказати, що дана модель працюватиме у державних сервісах для наших громадян.

Цікаво! Зараз Мінцифра готує інтерактив, аби дізнатися думку українців щодо назви українського штучного інтелекту. Деталі розкриють згодом.

Чи є у Європі чи США приклади державного підходу до створення мовних моделей?

Власна державна мовна модель ШІ – не унікальна історія. У більшості країн драйвером є держава, зазначає Данило Цьвок: це типова практика, фінансування здебільшого йде з бюджетів. Є випадки співпраці з бізнесом чи університетами, але держава – головний рушій.

В Україні держава ініціювала та координує процес, де наш партнер Київстар взяв на себе фінансову складову проєкту та безпосередню технологічну реалізацію. Ми цінуємо таку співпрацю,
– додає Chief AI Officer Мінцифри.

У багатьох європейських країнах зараз розробляють власні LLM. Це не лише тренд, а технологічна необхідність, яку називають "суверенний ШІ" – це національна мовна модель з унікальним контекстом та власна інфраструктура.

"У комплексі це створює технологічний суверенітет", – пояснює Цьвок. Наприклад, у Польщі близько пів року тому створили національну велику мовну модель – PLLuM. Це був консорціум держави з університетами.

У комплексі це створює технологічний суверенітет, де держава має потужну основу – українську LLM для AI-проєктів, продукти працюють на власній інфраструктурі, а дані залишаються в дата-центрах в межах країни.

Чи безпечно віддавати українські секрети штучному інтелекту?

Зважаючи на спекуляції щодо безпечності цифрових сервісів, не зайвим буде питання щодо безпеки ШІ. У Мінцифрі відповідають, що власне велика мовна модель – це про забезпечення рівня безпеки та мінімізації ризиків, тому Україна розробляє локальну модель, яку можна розгорнути у своєму середовищі.

Мінцифра готує до запуску власний ШІ: для чого він Україні, чи буде безпечний під час війни і коли запрацює - Фото 6

Данило Цьвок

керівник центру розробки та впровадження ШІ-рішень у Мінцифри

Це дозволяє повністю контролювати дані. Це критично для України, особливо для чутливих сфер: урядової, медичної, військової.

Першими користувачами стануть урядові, медичні та оборонні організації. Над базовою моделлю команда робитиме fine-tuning – тонке налаштування під конкретні домени (медичний, оборонний, сферу послуг тощо).

Насамперед плануємо застосовувати в урядовому та освітньому секторі, у проєктах Дія та Мрія. Далі – оборонна й медична сфери,
– детально пояснює Цьвок.

Базову версію великої мовної моделі, яка буде першим кроком до суверенного українського штучного інтелекту, Мінцифра планує реалізувати до кінця цього року.

Мінцифра готує до запуску власний ШІ: для чого він Україні, чи буде безпечний під час війни і коли запрацює - Фото 7

Данило Цьвок

керівник центру розробки та впровадження ШІ-рішень у Мінцифри

Далі модель буде викладена у бета-тестування. Під час цього періоду державні, громадські, наукові, освітні та інші організації зможуть завантажити модель і першими спробувати її роботу. Після тестового періоду модель буде передана державі та стане open source – тобто доступна усім. Бізнес також зможе долучитися до бета-тестування моделі, для цього потрібно звернутися до Київстару. Ми будемо донавчати модель, щоб наступні версії були кращими.

Попереду ще чимало технічних, правових та етичних викликів, однак запуск базової версії української LLM до кінця року стане важливою віхою у формуванні цифрової незалежності та технологічного суверенітету держави.

Джерело матеріала
loader
loader