ml_mdm: Набор диффузионных моделей Matryoshka от Apple.Matryoshka (MDM) – сквоз…
- C#, C++, Chatgpt, chatgpt, Data Analyst, Data Science, devops, Git, GO, IOS, Java, JavaScript, linux, php, php, programming, react, react, rust, sql, Вакансии, Искусственный интеллект, Курсы, Машинное обучение, Мероприятия, Мобильная разработка, Посты
Matryoshka (MDM) – сквозная структура для синтеза изображений и видео высокого разрешения. Вместо обучения отдельных моделей использован многомасштабный процесс совместной диффузии, в котором модели меньшего масштаба вложены в модели большего масштаба. Такая структура вложенности не только облегчает обмен свойствами между масштабами, но и обеспечивает постепенный рост обучаемой архитектуры.
ml_mdm – Python-фреймворк для синтеза изображений и видео c с помощью набора pre-trained моделей Matryoshka.
Codebase фреймворка:
Для тестирования инференса, оценки на датасете CC12M и обучении на собственных наборах изображений представлены 3 pre-trained модели, построенные на архитектурах U-Net и Nested U-Nets, обученные на 50 млн. пар “текст-изображение” с Flickr:
Зависимости для установки по умолчанию в файле pyproject.toml выбраны таким образом, чтобы можно было установить библиотеку даже на CPU-only систему.
# Running Test Cases:
> pytest # will run all test cases - including ones that require a gpu
> pytest -m "not gpu" # run test cases that can work with just cpu
# Download the models:
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr64/vis_model.pth --output vis_model_64x64.pth
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr256/vis_model.pth --output vis_model_256x256.pth
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr1024/vis_model.pth --output vis_model_1024x1024.pth
# Launch Web Demo:
torchrun --standalone --nproc_per_node=1 ml_mdm/clis/generate_sample.py --port 19999
⚠️ В Issues репозитория есть обращение о некорректной команде запуска Web Demo. Следите за обновлением тикета и коммитами.