Hunyuan3D-1.0: генерации 3D-моделей по тексту и изображению.Hunyuan3D-1.0 – дв…

Hunyuan3D-1.0: генерации 3D-моделей по тексту и изображению.Hunyuan3D-1.0 - дв...

🌟 Hunyuan3D-1.0: генерации 3D-моделей по тексту и изображению.

Hunyuan3D-1.0 – двухэтапная система для быстрой генерации 3D-моделей по текстовым запросам или изображениям. Модель представлена в трех версиях:

🟢Hunyuan3D-1 Lite – облегченная версия многовидовой генерации;
🟢Hunyuan3D-1 Standard – стандартная версия многовидовой генерации;
🟢Hunyuan3D-1 Sparse view reconstruction – модель реконструкции с ограниченным набором видов.

▶️ Ключевые особенности Hunyuan3D-1.0:

🟠Генерация 3D-модели занимает всего 10 секунд для облегченной версии и 25 секунд для стандартной версии;

🟠Высокая детализация текстур и геометрии;

🟠Динамическая регулировка CFG в процессе генерации;

🟠Модуль суперразрешения повышает разрешение трехплоскостных карт для создания детализированных аспектов 3D-формы;

🟠Использование функции знаковых расстояний (SDF) позволяет преобразовать неявную репрезентацию 3D-формы в явную сетку с помощью алгоритма Marching Cubes.

▶️ Пайплайн Hunyuan3D-1.0:

Первый этап Hunyuan3D-1.0 основан на многовидовой диффузионной модели, которая генерирует набор RGB-изображений с разных ракурсов. Эти изображения, фиксирующие детали 3D-объекта с различных точек зрения, поступают на вход во второй этап – модель реконструкции.

Модель реконструкции преобразует многовидовые изображения в готовую 3D-модель. Она обучена обрабатывать шумы и несоответствия, присущие многовидовой диффузии, и использовать информацию из входного изображения или текста для восстановления 3D-структуры.

▶️ Как обучалась Hunyuan3D-1.0:

Обучение многовидовой диффузионной модели и модели реконструкции осуществляется раздельно. Lite-версия многовидовой модели использует SD-2.1 в качестве основы, a standard-версия основана на SDXL.

Модель реконструкции сначала обучалась на многовидовых изображениях разрешением 256×256, а затем донастраивалась на изображениях разрешением 512×512. Весь процесс обучения проводился на 64 графических процессорах A100.

▶️ Оценка Hunyuan3D-1.0:

Для оценки Hunyuan3D-1.0 использовались датасеты GSO и OmniObject3D с выборкой около 70 объектов. В качестве метрик использовались расстояние Чамфера (CD) и F-мера, которые являются стандартными показателями точности реконструкции 3D-форм.

Standard-версия модели показала лучшие результаты по метрикам CD и F-score на обоих датасетах. Hunyuan3D-1.0 достигла оптимального баланса между качеством и скоростью по результаты сравнения с другими моделями.

Инференс Hunyuan3D-1.0 доступен в CLI и с Gradio UI. Описание ключей запуска для CLI и список преднастроенных скриптов для запуска можно найти в репозитории проекта на Github.

⚠️ Позиции камеры на инференсе зафиксированы на азимуте (относительно позиции камеры на входе) +0, +60, +120, +180, +240, +300.

⚠️ Рекомендованная VRAM – 40GB, но по неподтвержденным данным из issue – запускается c 20 GB на 3090.

▶️Локальный запуск с GradioUI:

# Cloning the repository
git clone https://github.com/tencent/Hunyuan3D-1
cd Hunyuan3D-1

# Create conda env
conda create -n hunyuan3d-1 python=3.9
conda activate hunyuan3d-1
bash env_install.sh

# Run Gradio UI with Hunyuan3D-1.0 Lite
python app.py --use_lite

# Open in browser link http://127.0.0.1:8080/

📌Лицензирование: Tencent Hunyuan Non-Commercial License.

🟡Модель
🟡Техотчет
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent

View Source

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *