Apple опубликовала результаты исследования Ferret-UI Lite — компактной ИИ-модели на 3 млрд параметров, предназначенной для работы прямо на устройстве без передачи данных на серверы. Модель сможет распознавать элементы интерфейса приложений и выполнять действия от имени пользователя.
Согласно исследованию, Ferret-UI Lite сопоставима или превосходит другие GUI-агенты, которые по размеру примерно в 24 раза больше. Ключевая особенность разработки заключается в ее локальной работе: все вычисления выполняются на устройстве, что исключает отправку пользовательских данных в облако.
Модель обучена понимать кнопки, поля ввода и иконки, а также выполнять последовательные действия, например переходы между разделами и ввод текста. Для обучения использовались размеченные данные и синтетические сценарии, созданные мультиагентной системой, где разные агенты формировали задания, выполняли их и проверяли результат.
Ferret-UI Lite лучше справляется с короткими задачами из одного-двух шагов. Более сложные многоэтапные сценарии даются ей хуже, что авторы называют ожидаемым ограничением для локальной модели. Обучение проводилось на интерфейсах Android, веб-сервисов и настольных программ, а не iOS.
Работа носит пока исследовательский характер и не является анонсом продукта, однако она показывает направление развития будущих ИИ-функций Apple.