Apple выложила исходники FlexTok — нового токенизатора изображений с гибкой дли…

Apple выложила исходники FlexTok — нового токенизатора изображений с гибкой дли...

🍏 Apple выложила исходники FlexTok — нового токенизатора изображений с гибкой длиной

FlexTok — это токенизатор, который представляет изображение как последовательность токенов переменной длины, от самых грубых до самых детализированных.

В отличие от большинства image tokenizer’ов (где всегда фиксированное число токенов и они жёстко локализованы по патчам), здесь подход коarse-to-fine — как в PCA:
– первый токен даёт максимально сжатое представление,
– второй — добавляет детали,
– третий — ещё больше и т.д.

Такой порядок оказывается семантически разумным, хотя обучение шло без языевой подсказки. Получается структура, которую удобно использовать в генерации и понимании изображений.

Всё сделано без магии:
– используется nested dropout на токенах во время обучения,
– архитектура простая, основана на известных компонентах,
– токены можно интерпретировать по уровню детализации.

📎 Исходники: https://github.com/apple/ml-flextok
🖼️ Демка: https://huggingface.co/spaces/EPFL-VILAB/FlexTok
📊 Визуализации: https://flextok.epfl.ch

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *