Владеющая TikTok китайская компания ByteDance представила открытую модель BitDance для генерации изображений. Модель насчитывает 14 млрд параметров и распространяется в open source формате.
По заявленным данным, BitDance превосходит по производительности ряд существующих решений, в том числе Z-Image-Turbo, Z-Image, Seedream 3.0, GPT Image и Flux, и почти достигает уровня Qwen-Image.
В модели был обновлён токенизатор. Размер словаря увеличен до 2^256 токенов, коэффициент сжатия составляет от 16x до 32x. Также сообщается о заметном улучшении качества реконструкции изображений.
Одной из ключевых особенностей стала поддержка параллельной генерации Next-Patch Diffusion. Вместо предсказания одного токена за шаг модель может одновременно предсказывать до 64 токенов. Это позволило существенно увеличить скорость работы: BitDance способна генерировать более 90 изображений размером 256×256 пикселей в секунду. По этому показателю она в 37,7 раза быстрее лучших авторегрессионных моделей.
BitDance доступна в двух версиях — BitDance-14B-64x и BitDance-14B-16x. Модель выложили на GitHub и Hugging Face.
