🌟Qwen2-Audio: Общайтесь с LLM помощью голоса.

Qwen2-Audio – аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе. 

Предусмотрено два режима взаимодействия:

 🟠голосовой чат: пользователи могут использовать голос для передачи инструкций модели без без ввода текста; 

 🟠аудио-анализ: пользователи могут предоставлять аудиоинформацию (включая речь, звук, музыку) и текстовые инструкции для анализа.

🌟Qwen2-Audio: Общайтесь с LLM помощью голоса.

Обе опубликованные модели поддерживают 8 языков и диалектов: китайский, английский, кантонский, французский, итальянский, испанский, немецкий и японский:

🟢Qwen2-Audio-7B 

🟢Qwen2-Audio-7B-Instruct  

Инференс на transformers в cli возможен в нескольких режимах:

 🟠простой инференс модели Qwen2-Audio;

 🟠пакетный инференс (например, несколько текстовых запросов к аудиофайлу);

 🟠инференс анализа аудио (в этом режиме доступны и текстовые и аудио-инструкции);

 🟠инференс голосового чата.

▶️Локальный запуск с GradioUI:

# Ensure you have latest Hugging face transformers

pip install git+https://github.com/huggingface/transformers

# to build a web UI demoinstall the following packages

pip install -r requirements_web_demo.txt

# run Gradio web UI

python demo/web_demo_audio.py

📌Лицензирование :  Apache 2.0

🟡Страница проекта

🟡Коллекция моделей на HF

🟡Arxiv

🟡Сообщество в Discord

🟡Demo

🖥Github [ Stars: 618 | Issues: 7 | Forks: 17]

@ai_machinelearning_big_data

#AI  #LLM #ML #Qwen2

+1
0
+1
0
+1
0
+1
0
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *