🌟Qwen2-Audio: Общайтесь с LLM помощью голоса.
Qwen2-Audio – аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.
Предусмотрено два режима взаимодействия:
🟠голосовой чат: пользователи могут использовать голос для передачи инструкций модели без без ввода текста;
🟠аудио-анализ: пользователи могут предоставлять аудиоинформацию (включая речь, звук, музыку) и текстовые инструкции для анализа.
Обе опубликованные модели поддерживают 8 языков и диалектов: китайский, английский, кантонский, французский, итальянский, испанский, немецкий и японский:
🟢Qwen2-Audio-7B
🟢Qwen2-Audio-7B-Instruct
Инференс на transformers в cli возможен в нескольких режимах:
🟠простой инференс модели Qwen2-Audio;
🟠пакетный инференс (например, несколько текстовых запросов к аудиофайлу);
🟠инференс анализа аудио (в этом режиме доступны и текстовые и аудио-инструкции);
🟠инференс голосового чата.
▶️Локальный запуск с GradioUI:
# Ensure you have latest Hugging face transformers
pip install git+https://github.com/huggingface/transformers
# to build a web UI demoinstall the following packages
pip install -r requirements_web_demo.txt
# run Gradio web UI
python demo/web_demo_audio.py
📌Лицензирование : Apache 2.0
🟡Demo
🖥Github [ Stars: 618 | Issues: 7 | Forks: 17]
@ai_machinelearning_big_data
#AI #LLM #ML #Qwen2