Создание аудиообразцов преобразования текста в речь для клонирования голоса ИИ: Простое руководство по использованию скриптов Python

В этой статье мы рассмотрим, как с помощью Python создавать аудиообразцы для обучения приложений преобразования текста в речь (TTS).

Я рассмотрю весь процесс, начиная с загрузки видео с YouTube и заканчивая извлечением звука и разделением его на несколько частей. Чтобы упростить весь процесс, я разработал ряд простых сценариев на Python, которыми я поделюсь ниже.

Предварительные требования (установленные на компьютере):

  • Git
  • Python

TLDR для разработчиков, которые хотят сразу перейти к исходному коду:

А теперь перейдем к самому интересному…

Загрузка видеороликов с YouTube

Занимаясь сбором видеоматериалов для получения аудиообразцов, я, как и вы, опасался использовать сомнительные сайты YouTube для преобразования MP4 или MP3. К счастью, я наткнулся на библиотеку Python “pytube”, которая оказалась беспроблемным и надежным решением.

Создание аудиообразцов преобразования текста в речь для клонирования голоса ИИ: Простое руководство по использованию скриптов Python

Просто выполните следующие действия:

1. Клонируйте скрипт python здесь

git clone https://github.com/nc1z/youtube-video-downloader.git

2. Перейдите в каталог

cd youtube-video-downloader/

3. Установите pytube

pip install pytube

4. Выполните команду

python main.py

5. Введите URL-адрес YouTube (работает также с шортами YT)

6. Видео будет сгенерировано в виде файла .mp4 в корне проекта

Преобразование .mp4 в .mp3

Имея в своем распоряжении коллекцию загруженных видеороликов, следующим шагом будет извлечение звука из каждого видео. Для этого мы воспользуемся мощной библиотекой moviepylibrary в Python.

Просто выполните следующие действия:

1. Клонируйте скрипт python здесь

git clone https://github.com/nc1z/audio-extraction-tool.git

2. Перейдите в каталог

cd audio-extraction-tool/

3. Установите moviepy

pip install moviepy

4. Поместите видео в формате mp4 в папку ./input

5. Выполните команду

python main.py

6. Извлеченные аудиофайлы будут находиться в папке ./output

Создание образцов

Для обучения или клонирования аудиозаписей с помощью TORTOISE-TTS их лучше разделить на более мелкие части. Чем больше аудиообразцов, тем лучше.

С помощью одного и того же инструмента для извлечения звука

1. Установите num_parts в файле split-audio-sampling.py на желаемое количество сэмплов

2. Выполните команду

$ python split-audio-sampling.py

3. Теперь вы будете получать аудиообразцы в ./output_samples/

Заключение

Теперь, имея на руках аудиообразцы, вы можете направить их в TORTOISE-TTS для клонирования потрясающих голосов.

Счастливого кодинга!

+1
0
+1
0
+1
0
+1
1
+1
0

Ответить

Ваш адрес email не будет опубликован. Обязательные поля помечены *