Ученые из Колумбийского университета представили технологию, позволяющую роботам в реальном времени синхронизировать движения губ и мимику с речью человека. Результаты исследования опубликованы в журнале Science Robotics.
Разработка работает на двух нейросетях. Одна управляет собственными выражениями лица робота, другая прогнозирует мимику собеседника еще до ее полного проявления. Такой подход делает взаимодействие более естественным, поскольку современные роботы обычно реагируют с заметной задержкой.
Система работает с несколькими языками, среди которых французский, китайский и арабский, даже если они не использовались при обучении модели. Авторы отмечают, что технология показала более высокую точность воспроизведения движений рта по сравнению с пятью существующими методами.
«Разработанная система также смогла генерировать реалистичные движения губ на 11 языках, отличных от английского, с различной фонетической структурой», — отмечают авторы.
На базе платформы Eva был создан робот Emo, оснащенный 26 приводами для лицевых движений и шеи. Камеры фиксируют мимику и движения глаз собеседника, а магниты под сменной кожей обеспечивают точное управление выражениями.
Модель обучалась на 970 видеозаписях с участием 45 человек и работает с высокой скоростью, позволяя воспроизводить выражения за доли секунды. Тестирование показало, что система корректно предсказывает активацию мимики в 72,2% случаев.
Разработчики считают технологию перспективной для образования и ухода за пожилыми людьми, при этом подчеркивая необходимость ответственного применения.