Создание аудиообразцов преобразования текста в речь для клонирования голоса ИИ: Простое руководство по использованию скриптов Python
В этой статье мы рассмотрим, как с помощью Python создавать аудиообразцы для обучения приложений преобразования текста в речь (TTS).
Я рассмотрю весь процесс, начиная с загрузки видео с YouTube и заканчивая извлечением звука и разделением его на несколько частей. Чтобы упростить весь процесс, я разработал ряд простых сценариев на Python, которыми я поделюсь ниже.
Предварительные требования (установленные на компьютере):
- Git
- Python
TLDR для разработчиков, которые хотят сразу перейти к исходному коду:
А теперь перейдем к самому интересному…
Загрузка видеороликов с YouTube
Занимаясь сбором видеоматериалов для получения аудиообразцов, я, как и вы, опасался использовать сомнительные сайты YouTube для преобразования MP4 или MP3. К счастью, я наткнулся на библиотеку Python “pytube”, которая оказалась беспроблемным и надежным решением.
Просто выполните следующие действия:
1. Клонируйте скрипт python здесь
git clone https://github.com/nc1z/youtube-video-downloader.git
2. Перейдите в каталог
cd youtube-video-downloader/
3. Установите pytube
pip install pytube
4. Выполните команду
python main.py
5. Введите URL-адрес YouTube (работает также с шортами YT)
6. Видео будет сгенерировано в виде файла .mp4 в корне проекта
Преобразование .mp4 в .mp3
Имея в своем распоряжении коллекцию загруженных видеороликов, следующим шагом будет извлечение звука из каждого видео. Для этого мы воспользуемся мощной библиотекой moviepylibrary в Python.
Просто выполните следующие действия:
1. Клонируйте скрипт python здесь
git clone https://github.com/nc1z/audio-extraction-tool.git
2. Перейдите в каталог
cd audio-extraction-tool/
3. Установите moviepy
pip install moviepy
4. Поместите видео в формате mp4 в папку ./input
5. Выполните команду
python main.py
6. Извлеченные аудиофайлы будут находиться в папке ./output
Создание образцов
Для обучения или клонирования аудиозаписей с помощью TORTOISE-TTS их лучше разделить на более мелкие части. Чем больше аудиообразцов, тем лучше.
С помощью одного и того же инструмента для извлечения звука
1. Установите num_parts в файле split-audio-sampling.py на желаемое количество сэмплов
2. Выполните команду
$ python split-audio-sampling.py
3. Теперь вы будете получать аудиообразцы в ./output_samples/
Заключение
Теперь, имея на руках аудиообразцы, вы можете направить их в TORTOISE-TTS для клонирования потрясающих голосов.
Счастливого кодинга!