Україна запускає проєкт, який може змінити те, як ми спілкуємося з державними сервісами та бізнесом. Йдеться про українську LLM – велику мовну модель, адаптовану до нашої мови та контексту. Вона має працювати подібно до світових лідерів на кшталт Gemini і ChatGPT, але навчатися на українських даних. Проєкт пройшов шлях від ідеї до конкретних робіт і має чіткі дедлайни запуску.
Партнерство та технологічна основа
Технічним партнером держави виступає технічний партнер – Київстар – компанія фінансує розробку та координує інженерні роботи. Після завершення передача моделі державі запланована як формальний етап фінішу. Фундамент обрали сучасний: сімейство моделей Gemma від Google, яке адаптують під українську мову та локальний контекст.
Що роблять зараз: дані понад усе
Найскладніша і водночас вирішальна фаза – підготовка корпусу даних. Команда збирає тексти в державних інституціях, медіа, університетах і наукових установах. Акцент – не лише на матеріалах з інтернету, а й на архівах та інших письмових джерелах, значна частина яких досі існує лише на папері. Це ще раз підсвічує потребу прискореної цифровізації документів.
Як контролюватимуть якість і безпеку
Для незалежного нагляду сформовано експертний комітет із чотирма напрямами: науково‑технічним, правовим, культурно‑історичним і мовним. Їхнє найближче завдання – створити власні бенчмарки якості та безпеки, аби оцінювати точність, релевантність і ризики ще до публічного запуску.
Ключові факти: технічний партнер – Київстар; основа – Gemma; перша публічна версія піде у бета‑тест навесні 2026 року; у січні 2026 буде база даних, покращений токенізатор і бенчмарки; назву оберуть через голосування в Дії.
Що буде готово у січні 2026
- Перша база текстів для навчання мовної моделі.
- Покращений токенізатор – інструмент, що ефективніше розбиває слова на елементи і прискорює обробку української мови.
- Власні стандарти оцінювання – бенчмарки ефективності та безпеки для подальших тестів LLM.
Правові рамки: прозорість і інтелектуальна власність
Паралельно команда готує юридичні правила. Завдання – зробити обробку даних прозорою та безпечною, з дотриманням вимог у сфері інтелектуальної власності. Це потрібно і для навчання моделі, і для її подальшого використання в державних сервісах та бізнес‑екосистемі.
Коли чекати реліз і як долучитися
Першу версію планують відкрити для бета‑тесту навесні 2026 року. Модель навчатиметься на унікальних українських даних і має амбіцію конкурувати у відкритих рейтингах. У січні стартує голосування за назву в Дії, тож користувачі зможуть вплинути на бренд національної LLM ще до її публічного дебюту.
Що це дасть користувачам і бізнесу
З появою української LLM держава та приватний сектор зможуть запускати AI‑чати і помічники для типових запитів, довідок та сервісів. Для користувачів це означає швидші відповіді та краще розуміння контексту української мови. Для компаній – можливість будувати локальні інтеграції з урахуванням правових і культурних особливостей нашого ринку.
Фінішна рамка
Українська LLM рухається за чітким графіком: дані та бенчмарки – у січні 2026 року, бета‑тест навесні 2026 року. Якщо слідуватимуть плану, уже найближчим часом з'являться інструменти, які краще "розуміють" українську мову та контекст. Варто стежити за новинами в Дії та долучитися до вибору назви – свій голос можна віддати вже цього місяця.