Программисты китайской технологической компании Alibaba создали ИИ-систему, которая способна оживлять фотографии. EMO (Emote Portrait Alive) может создавать реалистичные видеоролики говорящего или поющего человека по одной фотографии, сообщает «Хайтек» со ссылкой на исследование в издании arXiv.
EMO использует диффузионную модель ИИ, которая преобразует звуковые волны в видеокадры. Система была обучена на наборе данных из 250 часов видео "говорящих голов" из различных источников, таких как речи, фильмы, телешоу и вокальные выступления.
EMO превзошла существующие методы с точки зрения качества видео, сохранения идентичности и выразительности. Созданные ею видеоролики воспринимаются как более естественные и эмоциональные, чем этого удалось добиться другим разработкам.
ИИ-система может не только создавать диалоговые видеоролики, но и анимировать поющие портреты, синхронизированные с вокалом. Она поддерживает создание видео произвольной продолжительности в зависимости от длины входного аудио.
Такая разработка может иметь множество применений, таких как создание обучающих материалов, видеопрезентаций, персонализированных поздравлений и т.д.