Xiaomi представила свою первую крупномасштабную робототехническую модель Xiaomi-Robotics-0 с открытым исходным кодом. Система насчитывает 4,7 млрд параметров и предназначена для управления роботами в реальной среде.
Модель построена по принципу vision-language-action (VLA). Она объединяет зрительное восприятие, понимание текстовых команд и выполнение физических действий в реальном времени. В компании называют такой подход основой «физического интеллекта». По данным Xiaomi, модель показывает высокие результаты как в симуляциях, так и при работе с реальными роботами.
В основе системы лежит архитектура Mixture-of-Transformers, которая делит задачи между двумя блоками. Первый — модель визуального языка — отвечает за интерпретацию инструкций и понимание пространства. Второй компонент, Action Expert, формирует не отдельные движения, а целые последовательности действий, что повышает точность и плавность работы.
Совместное обучение на данных разных типов позволило сохранить способность к рассуждению при выполнении физических задач. Robotics-0 показала высокие результаты в тестах LIBERO, CALVIN и SimplerEnv, а также успешно справилась с практическими заданиями на двурукой роботизированной платформе — от складывания полотенец до манипуляций с блоками.
Для снижения задержек система использует асинхронный вывод и механизмы стабилизации движений, что делает поведение робота более устойчивым.