Использование ChatGPT для понимания языковой модели VALL-E
Мотивация
В моей предыдущей статье я обсуждал, как ChatGPT может помочь в разработке текстовых подсказок. В этой статье я хотел бы поделиться тем, как чат-бот ChatGPT может быть чрезвычайно полезен, когда мы читаем научные тексты. Итак, давайте ознакомимся со статьёй ” Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers“, недавно опубликованной на arxiv. Я использовал ChatGPT для определения терминов, специфичных для конкретной области, таких как фонемы, дискретный код, синтез TTS с нулевым эффектом (преобразование текста в речь)…
Я должен признать, что довольно забавно иметь в своём распоряжении такого высокоинтеллектуального личного помощника.
Несколько определений
Что такое Фонема?
Фонема – это наименьшая звуковая единица, которая может отличить одно слово от другого. Фонемы являются строительными блоками слов и используются при образовании их в разговорных языках. Они представляют собой основные звуки, из которых состоят слова. Например, в английском языке слово “кошка” состоит из трех фонем: /k/, /æ/ и /t/. Изменение любой из фонем изменит слово, например, “летучая мышь” /b/ /æ/ /t/ и “крыса” /r/ /æ/ /t/ . При синтезе текста в речь, фонемы используются в качестве входных данных для генерации речи.
Что такое Дискретный код?
В фонетике дискретный код относится к способу представления звуков речи с использованием набора отчётливых и отдельных символов или иероглифов. Это в отличие от непрерывной речи, которая представляет собой непрерывный поток звуков. Международный фонетический алфавит (IPA) является примером дискретного кода, используемого в фонетике. IPA использует набор символов для представления отдельных звуков (или фонем) человеческой речи. Эти символы могут быть использованы для транскрипции речи таким образом, чтобы лингвистам и фонетикам было легко читать и понимать их.
Что такое Форма волны?
Форма волны – это графическое представление звука или сигнала, показывающее, как амплитуда (или громкость) звука изменяется с течением времени. Это визуальное представление звука, обычно показываемое в виде линии на графике x-y, где ось x представляет время, а ось y представляет амплитуду. Форма волны может быть использована для анализа и понимания свойств звука, таких как его частота, высота тона и гармоника. Его также можно использовать для редактирования звука и управления им, например, для регулировки громкости или удаления нежелательных шумов. Формы сигналов можно найти в программном обеспечении для цифрового аудио, программном обеспечении для редактирования аудио и цифровом осциллографе.
Что такое Zero-shot text-to-speech?
Zero-shot TTS (преобразование текста в речь) – это тип технологии TTS, которая позволяет компьютеру генерировать речь для новых и невидимых текстовых вводов без необходимости в дополнительных обучающих данных.
Что такое LibriSpeech?
LibriSpeech – это корпус из, примерно, 1000 часов прочитанной английской речи, предназначенный для помощи в обучении и оценке моделей для ASR (автоматического распознавания речи). Он создан на основе аудиокниг проекта LibriVox и включает в себя как обучающий набор, так и набор тестов. Речь ведётся с различными скоростями и стилями говорения, и она включает в себя транскрипции. Он обычно используется в качестве эталонного набора данных для оценки производительности моделей ASR.
Что такое VCTK?
VCC (VoiceClone Toolkit) – это набор данных речевых записей, предназначенный для обучения и оценки моделей синтеза текста в речь (TTS). Он содержит примерно 44 часа речи 109 носителей английского языка, в общей сложности около 400 000 слов. Речь включает в себя большое разнообразие различных акцентов и стилей, а также транскрипции речи. Набор данных включает в себя как обучающий, так и тестовый наборы. Он обычно используется в качестве эталонного набора данных для оценки производительности моделей TTS.
Несколько слов о статье
В статье представлена новая модель нейронного аудиокодека под названием VALL-E.
Модель нейронного аудиокодека – это модель машинного обучения, которая использует нейронные сети для сжатия и распаковки аудиоданных. Цель состоит в том, чтобы уменьшить битрейт аудиоданных при максимально возможном сохранении качества звука. В этих моделях обычно используются такие методы, как сжатие с потерями, при котором отбрасываются некоторые аудиоданные, которые считаются менее важными для общего качества звука. Сжатый звук затем может быть распакован с помощью соответствующей модели декодера для восстановления исходных аудиоданных. Эти модели имеют множество применений, но всё ещё находятся в разработке. Например, они могут быть использованы при синтезе речи и уменьшать объём данных, который необходимо хранить на ПК, смартфонах и т.д.
VALL-E был предварительно обучен с использованием 60 000 часов английской речи. Он использует подсказки с нулевым кадром для создания естественной речи с высококачественным подобием говорящего объекта. VALL-E генерирует дискретные коды аудиокодека на основе как фонемных, так и акустических подсказок. VALL-E использует следующую последовательность:
Он позволяет редактировать речь, делать нулевые снимки и создавать контент, работая в сочетании с другими моделями генерации искусственного интеллекта. Требуется всего 3 секунды, чтобы узнать голос человека и использовать его для чтения текстового запроса. Впечатляет, как VALL-E может поддерживать эмоции спикера и акустическую среду. Жаль, что это работает только на английском языке.
Ниже представлен обзор на VALL-E.
В документе перечислены следующие ключевые достижения:
- VALL-E – это первый фреймворк TTS с реальными возможностями обучения, аналогичными GPT-3. Он позволяет быстро выполнять TTS без необходимости в дополнительном проектировании конструкции или предварительно разработанных акустических характеристиках и тонкой настройке, как в предыдущих методах.
- Создание обобщённой системы TTS в измерении динамиков путем использования большого объема полууправляемых данных, демонстрируя, что простое масштабирование полууправляемых данных было недооценено для TTS.
- VALL-E способен выдавать различные выходные данные с одним и тем же вводимым текстом, сохраняя при этом акустическую среду и эмоции говорящего от акустической подсказки.
- VALL-E генерирует естественную речь с высоким сходством говорящего с помощью подсказок в сценарии. Результаты оценки показывают, что VALL-E превосходит современную систему TTS на LibriSpeech и VCTC.
Для более глубокого понимания я предлагаю прочитать статью. Пожалуйста, обратите внимание, что в настоящее время модель недоступна для представителей Российской Федерации. Однако я думаю, что вполне возможно, что аналогичные модели будут выпущены на платформе Hugging Face к концу года.
Я надеюсь, что вам понравилась данная статья.