«Штучний інтелект збільшує потужності редакції в десятки разів»
«Штучний інтелект збільшує потужності редакції в десятки разів»

«Штучний інтелект збільшує потужності редакції в десятки разів»

7 липня 2021 року на ютуб-каналі «Дедлайн» відбувся марафон лекцій Ukraine Journalism AI Day про застосування штучного інтелекту в медіа. Цей проєкт — ініціатива керівника Центру журналістики Київської школи економіки Андрія Яніцького, який виграв грант House Of Europe. «Детектор медіа» занотував головне й найцікавіше, що було сказано під час марафону про штучний інтелект у медіа. Починаємо публікацію адаптованих текстів лекцій марафону з виступу Анатолія Бондаренка, керівника напряму журналістики даних видання Texty.org.ua. Слайди можна переглянути тут.

Українське видання Texty.org.ua робить проєкти, засновані на даних, і для цього використовує можливості штучного інтелекту. Наприклад, журналісти застосували нейронні моделі, щоб визначати кількість людей на акціях, виявити недоброчесні соціологічні компанії, проаналізувати голосування кожного депутата в Верховній Раді, знайти всі місця незаконного видобутку бурштину в українському Поліссі. А за проєкт із вивчення російської пропаганди, для якого збирали маніпулятивні новини про Україну, видання навіть посіло перше місце в авторитетному конкурсі журналістики даних Sigma Awards.

Що таке штучний інтелект

Коректніше означення — обмежений штучний інтелект. Обмежений тому, що він поки що не може пропонувати загальні рішення та відповіді на ті питання, які можуть розв’язувати люди. Він недостатньо гнучкий. Тому й називається не просто штучним інтелектом, а обмеженим або вузьким штучним інтелектом.

Обмежений штучний інтелект складається з декількох частин, одна з яких — машинне навчання. Це набір методів та алгоритмів, які дозволяють тренувати моделі на основі даних. Один із підрозділів машинного навчання — це так зване глибоке навчання. За останні роки глибоке навчання вийшло на рівень розв’язання задач, схожий на рівень людини. А в деяких випадках — навіть на рівень, що перевершує рівень людини.

Наприклад, завдяки глибокому навчанню комп'ютер уперше виграв у чемпіона світу з го — гри, яка вважається найскладнішою.

Отже, обмежений штучний інтелект — це галузь, що поєднує комп'ютерні науки, набори даних та потужні обчислення, які дозволяють розв’язати ту чи іншу проблему.

Чим це відрізняється від попереднього підходу розв’язання задач за допомогою комп'ютерів?

У звичайному програмуванні ми беремо початковий набір даних і пишемо програму, яка за визначеними правилами взаємодіє з даними.

Підхід глибокого навчання інший — тут ми беремо багато даних і вчимо модель знаходити правила в цих даних. Це більш спеціалізований підхід, який став можливим завдяки тому, що соціальні мережі, торговельні майданчики (наприклад, Amazon), Вікіпедія, музичні сервіси продукують дуже велику кількість даних і моделі можна на них тренувати. Ще десять років тому такої кількості даних просто не було.

Також на революцію машинного навчання вплинув розвиток комп'ютерних ігор, а саме відеокарт. Вони паралельно обчислюють дуже багато операцій, і на цих даних зручно тренувати вже складніші моделі.

Є припущення, що обмежений штучний інтелект є головним двигуном наступної індустріальної чи постіндустріальної революції. І країни, які претендують на глобальне лідерство, ставляться до його розвитку так само серйозно, як колись ставились до розвитку атомної програми.

Від розвитку цих технологій залежить, хто буде глобальним лідером у найближчі 5–10 років. Зараз лідери — це Сполучені Штати Америки та Китай, який намагається догнати (й перегнати) США. Англомовний та китайськомовний сегменти інтернету продукують найбільшу кількість даних, і в цих двох країнах є найбільше комп'ютерних потужностей, щоби працювати з цими даними.

Що можуть робити складні моделі

У 2012 році завдяки глибокому навчанню комп'ютер уперше наблизився до розуміння зображення, яке є в людини. Коли ми показуємо комп’ютеру зображення, він виділяє та класифікує об'єкти на ньому — тварин, людей, рослини. Зараз комп'ютери вже краще за людину можуть класифікувати мільйон зображень і визначити, що саме зображене.

Такі машинні моделі множать потужності, збільшують їх у багато-багато разів. Наприклад, такі маленькі колективи, як колектив «Текстів», не зробили би подібного обсягу роботи самотужки — тільки на проєкт про видобуток бурштину могли би піти роки й роки роботи. Натомість штучний інтелект проаналізував понад 450 тисяч супутникових зображень для проєкту за два тижні.

У 2018 році почалася революція в інших галузях, уже не в обробці зображень, а в обробці тексту, натуральної мови. На сьогодні обробка натуральної мови комп’ютером починає наближатись до того, як мову обробляють люди. Завдяки розвитку цих двох напрямків — обробки зображень та натуральної мови — багато західних редакцій починають використовувати обмежений штучний інтелект у повсякденній роботі.

Велика кількість контенту, наприклад, у Бі-бі-сі, Reuters чи Bloomberg уже зараз генерується автоматично або напівавтоматично. Йдеться про автоматичні подкасти, коли з тексту матеріалу без участі людини генерується текст начитки; про автоматичне генерування новин про спорт, погоду, фінансову звітність компаній. У деяких сферах штучний інтелект збільшує потужність редакції в десятки разів.

Як тренуються мовні моделі

Береться великий шматок тексту, наприклад, з української Вікіпедії, попередньо написаній програмі мовної моделі дають перші п'ять — десять слів із речення і пропонують вгадати наступне слово. Якщо модель помиляється, її виправляють, змінюють параметри й далі перебирають весь текст. Що більший текст, то кращою буде модель.

Після такого інтенсивного навчання мовна модель має велику кількість нейронів — в останніх моделях це кілька мільярдів нейронів — і починає щось розуміти про мову, в деякі моменти навіть більше, ніж конкретна людина.

Для української мови та інших мов, для яких є менша кількість текстів, на основі яких можна тренувати моделі, останнім часом є багато досягнень.

Декілька класичних задач із обробки мови можна вважати розв’язаними: аналіз сентиментів, тобто тональності тексту (позитивної/негативної); модель «сутність-зв'язок», за допомогою якої ми можемо отримати базу даних з усіх людей, місць і організацій, які згадуються в тексті.

Хороша новина для журналістів: уже майже готові глибокі комп'ютерні нейронні мережі, які можуть транскрибувати аудіозаписи в текст — і для української мови також.

Марафон Ukraine Journalism AI Day підтримав Європейський Союз за програмою «Дім Європи».

 

Теги по теме
Статьи Производство
Источник материала
loader
loader