NVIDIA PiD: декодер для text-to-image
NVIDIA представила PiD, новый декодер для генеративных моделей изображений. Идея в том, чтобы отказаться от привычной схемы VAE-декодер плюс отдельный апсемплер и превратить декодирование латентов сразу в условный пиксельный диффузионный процесс. Восстановление картинки и её увеличение происходят за один проход.
По цифрам разработчики заявляют декодирование латента 512×512 сразу в пиксельный образ 2048×2048 меньше чем за секунду, поддержку апскейла от 4× до 8× при минимальной задержке, 210 мс на NVIDIA GB200 и в районе 6× ускорения против каскадных схем super-resolution. Качество по UniPercept IQA и Gemini-3-Flash Judge Win Rate выше, чем у Real-ESRGAN, LUA, InvSR-1, TSD-SR и SeedVR2.
Современные text-to-image модели (FLUX, DINOv2, SD3 и прочие) работают в сжатом латентном пространстве. Это экономит время и память на самой генерации, но когда речь идёт о выводе в 4K и выше, этап восстановления пикселей из латента и апсемплинга съедает основное время. PiD объединяет эти два шага в один.
Для практики это означает, что тяжёлый каскад VAE-декодера и диффузионного апсемплера заменяется одним лёгким блоком, и вывод высокого разрешения становится реальным в интерактивном режиме. Для продакта на базе FLUX, Stable Diffusion 3 и подобных архитектур это выражается в падении себестоимости одной картинки в 4K и в возможности гнать высокое разрешение в реальном времени.
Проектная страница NVIDIA: https://research.nvidia.com/labs/sil/projects/pid/
Источник: https://x.com/SciTechera/status/2059170034451452357
