При помощи современных нейронных сетей имеется возможность как писать тексты, так и переводить аудиоматериал в текстовый формат. Но зачастую для пользователей становится актуальной еще одна задача – а именно, перевод текста в аудио. При помощи технологий синтеза речи (сокращенно – TTS, или же Text-to-speech) можно озвучить любой текст и тем самым сделать его доступным для большего числа пользователей. Ведь далеко не всегда удобно воспринимать информацию в текстовом формате – например, если подписчик соцсети или читатель блога находится в дороге, ему будет проще ознакомиться с новостями вашего ресурса при помощи аудио. Перевести текстовый материал в аудио можно при помощи нейронной сети, которая называется Uberduck.
Как пользоваться Uberduck для перевода текста в аудио
Нейронная сеть работает с текстами на множестве различных языков мира, в том числе русском. После регистрации на портале нейросети пользователю сразу же открывается личный кабинет:
Для начинающих пользователей доступна кратковременная бесплатная подписка; далее тарифы стартуют от 4 долларов в месяц. В личном кабинете пользователям доступны следующие возможности:
- Перевод из текста в речь.
- Перезапись аудиофайла другим голосом.
- Создание клона голоса.
- Создание аудиодорожки в стиле рэп.
- Генератор промптов.
Для перевода текста в речь для начала следует выбрать тип голоса (любой, мужской или женский) и язык. Также можно настроить выбор голоса из публичных вариантов либо приватных (тех, что клонировали самостоятельно – об этом мы поговорим ниже).
В нижнее окно необходимо вставить интересующий вас текст и нажать на кнопку Generate Speech:
После выполнения этих нехитрых действий файл будет сгенерирован и доступен для скачивания. Ничего сложного в озвучивании текста при помощи данной нейросети нет – с функционалом этого ресурса разберется даже ребенок. Но все же нельзя не отметить один существенный минус, которым обладает Uberduck: доступные голоса (по крайней мере, те, которыми можно озвучить текст на русском языке) звучат очень машинно – так, будто текст произносит робот. Например, как можно увидеть на скрине выше, для озвучивания нашего текста мы использовали голос ДАРИЯ. Мало того, что разработчики указали женское имя с ошибкой; помимо этого, звучание данного голоса мало чем отличается от машинной озвучки веб-страниц при помощи Google (или же знаменитого Google Translate).
Клонирование голоса
Более интересной выступает опция генерации клона голоса. Для этого следует открыть вкладку Instant Voice Cloning, указать имя и краткое описание желаемого голоса:
После этого необходимо загрузить файл с образцом голоса (можно записать собственный, чтобы клонировать его):
После нажатия на кнопку Save and continue голос будет записан и доступен для перевода текстового материала в аудио.
Создание музыкальных треков в стиле рэп
Открыв вкладку Rap, можно создать музыкальную дорожку на основе сгенерированного нейросетью текста. Для этого необходимо сначала выбрать тип музыкального сопровождения, затем – указать примерное описание текста. Мы попытались сгенерировать текст на русском языке – честно говоря, нейросеть выдала совершенно бессвязный куплет:
Учитывая уровень развития современных нейросетей, для генерации поэтического текста можно выбрать и более качественный сервис (например, на портале Креатор Проджект доступен бот-ассистент по имени Васян, генерирующий намного более интересные тексты для рэпа).
После этого нас ожидал неприятный сюрприз – доступными оказались лишь голоса на английском и испанском, и при генерации конечного файла нейросеть выдала ошибку:
Поэтому нам пришлось вернуться на предыдущую вкладку, чтобы создать лирику заново – теперь на английском:
В конечном счете, на английском языке нейросетью все же был сгенерирован аудиофайл в стиле рэп сомнительного качества. На наш взгляд, с данной функцией нейросеть Uberduck справляется слабо – намного более мощным функционалом в этом плане обладает знаменитая Suno. Ее “способности” в генерации музыки даже не подлежат сравнению с Uberduck.
Таким образом, нейронная сеть Uberduck подходит для решения стандартной задачи перевода текстов в аудиоформат, хотя на особенно высокое качество озвучивания здесь надеяться не стоит. Интересной, на наш взгляд, выступает опция клонирования голоса. Что же касается других функций, то для них рекомендуем воспользоваться более продвинутыми сервисами.