/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2Fbad3b41021e7b1b46dd2ef479646ee7d.jpg)
Майже як людина. Гуманоїдний робот навчився синхронізувати рухи губ із мовленням у реальному часі
Дослідники з Колумбійського університету розробили нову систему, яка дозволяє гуманоїдному роботу синхронізувати рухи губ зі звуком мовлення так, що це виглядає максимально наближено до людської міміки. Робот може відтворювати рухи губ під час розмови або співу й робить це в реальному часі.
Результати дослідження опублікували в науковому журналі Science Robotics.
Система здатна працювати з різними мовами. Вона коректно відтворює рухи губ не лише англійською, а й французькою, китайською, арабською та ще низкою мов, навіть якщо частина з них не використовувалася під час навчання моделі.
За словами дослідників, під час тестування новий підхід перевершив п’ять існуючих методів і показав найкращу відповідність між рухами рота робота та еталонними відео з людською мімікою. Команда зазначає, що система змогла створювати реалістичні рухи губ для 11 мов, які мають різну звукову будову.
Розробку планують застосовувати, зокрема, в освіті та догляді за людьми похилого віку. Водночас дослідники наголошують на необхідності обережного використання технології, щоб уникнути зловживань.
У більшості випадків сучасні роботи реагують на міміку людини із запізненням — вони копіюють вираз обличчя вже після того, як людина його показала. Це виглядає неприродно. Нова система робить інакше: вона намагається передбачити вираз обличчя людини ще до того, як він повністю сформується.
Для цього команда створила антропоморфного робота на ім'я Emo. Це оновлена версія попередньої платформи Eva. Emo має 26 приводів для рухів обличчя, що дозволяє створювати асиметричні мімічні вирази. У Eva таких приводів було лише 10.
Обличчя робота вкрите змінною «шкірою», яка деформується за допомогою магнітів. Така конструкція забезпечує точніший контроль рухів, ніж попередня система з тросами. У «очі» робота вбудовані камери високої роздільної здатності, які дають змогу в реальному часі спостерігати за співрозмовником і прогнозувати його міміку.
Система складається з двох нейромереж. Перша відповідає за прогноз власних виразів обличчя робота, друга — за передбачення міміки людини. Загалом у Emo 23 мотори керують рухами обличчя, ще три — рухами шиї. Це дозволяє роботу синхронізувати свою міміку з людиною під час спілкування.
Щоб навчити модель передбачати міміку, дослідники використали майже тисячу відео з 45 учасниками. Система аналізувала ледь помітні початкові зміни на обличчі й на їх основі прогнозувала майбутній вираз.
Модель працює дуже швидко: прогнозування відбувається зі швидкістю 650 кадрів на секунду, а передача команд на мотори — до 8 тисяч разів на секунду. У результаті робот формує вираз обличчя за приблизно 0,002 секунди. Для порівняння, у людей формування міміки зазвичай триває близько 0,8 секунди.
Під час перевірок система показала кращі результати, ніж просте копіювання або випадкові реакції. Аналіз понад двох тисяч команд показав, що робот правильно передбачає потрібну міміку у понад 72% випадків.
Водночас дослідники зазначають, що існують культурні обмеження: вирази обличчя та зоровий контакт можуть суттєво відрізнятися в різних культурах. Попри це, здатність передбачати людську міміку вважають важливим кроком у розвитку соціальної поведінки роботів.

