Китайская компания ByteDance, владеющая видеоплатформой TikTok, разработала новую систему искусственного интеллекта OmniHuman-1. Она способна преобразовать фотографии в максимально реалистичные видеоролики реалистичные видеоролики с естественными движениями.
В отличие от предыдущих моделей, которые приводили в движение только лицо или верхнюю часть тела, OmniHuman-1 создает видео в полный рост, синхронизируя жесты и движения с речью.
В ByteDance рассказали, что разработка основана на обучении нейросети на 18 700 часах реально отснятых людьми видеоданных. Новый метод объединяет различные входные данные — текст, аудио и движения тела, что позволяет существенно расширить возможности генерации видео.
Исследовательская группа отмечает, что такой подход снижает потери данных и повышает качество результата.
В ходе тестирования OmniHuman-1 показала превосходство над существующими системами по ряду параметров. Примеры работы нейросети можно найти по этой ссылке.