YouTube тестирует технологию на базе искусственного интеллекта, которая позволяет синхронизировать движения губ спикеров с автоматическим переводом видео. Это будет дополнением к уже существующей функции автодублирования, которая переводит аудиодорожку с помощью ИИ.
По словам руководителя продукта по автодублированию Будхики Коттахаччи, команде пришлось создавать инструменты, которые «модифицируют пиксели на экране так, чтобы они соответствовали переведённой речи». Система анализирует форму губ, положение зубов, мимику, осанку и другие визуальные параметры.
На данный момент технология показывает лучшие результаты на видео в разрешении Full HD. Для 4K качество пока ниже, но планируется его улучшение перед официальным запуском.
Первая версия поддерживает синхронизацию при переводе на английский, французский, немецкий, испанский и португальский. В будущем функция охватит все языки автодублирования, включая русский, турецкий, японский, корейский, итальянский, украинский и другие. Дата публичного релиза и стоимость использования пока не объявлены.
Функция находится на ранней стадии тестирования, доступ к ней имеют только избранные пользователи платформы.