⚡️ Sapiens: Семейство ViT-моделей для визуальных задач c изображениями человека.
Meta Reality Labs выпустила семейство моделей Sapiens, предназначенных для операций с изображениями или видео людей:
🟢вычисления 2D-позы (17, 133 и 308 ключевых точек);
🟢сегментации частей тела (28 категорий);
🟢оценки карты глубины;
🟢извлечения нормалей поверхности.
Модели могут работать с разрешением 1K (1024х1024) и легко адаптируются под специфические задачи путем тонкой настройки моделей. Семейство было обучено на предварительно отобранном корпусе данных в 300 млн изображений, из которого были удалены изображения с водяными знаками, художественной стилизацией, снимки плохого качества и содержащие размытие в движении.
Опубликованные модели разделяются по назначению : sapiens_lite_host – предназначены для инференса, а sapiens_host – длясамостоятельного обучения на ваших данных. Для обеих вариантов наборов выпущены градации плотности:
🟢Sapiens 0.3B
🟢Sapiens 0.6B
🟢Sapiens 1B
🟢Sapiens 2B
Разработчики рекомендуют lite-установку для инференса, она оптимизирована для быстрого запуска с минимальными зависимостями и возможностью запуска на нескольких GPU.
▶️Установка и запуск на примере Depth Estimation:
# Clone repository
git clone git@github.com:facebookresearch/sapiens.git
export SAPIENS_ROOT=/path/to/sapiens
# Set up a venv:
conda create -n sapiens_lite python=3.10
conda activate sapiens_lite
# Install dependencies
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
pip install opencv-python tqdm json-tricks
# Navigate to your script directory
cd $SAPIENS_LITE_ROOT/scripts/demo/[torchscript,bfloat16,float16]
# Uncomment your model config line first
./depth.sh
📌 Лицензирование : CC-BY-NC-SA-4.0 License
▪Страница проекта
▪Набор моделей
▪Arxiv
▪Github [ Stars: 75 | Issues: 0 | Forks: 0]
@ai_machinelearning_big_data
#AI #Vision #ViT #ML #CV
View Source
Просмотры: 242