...

Стриминговая генерация речи и поддержка кастомных голосов. Обзор Hume EVI 3

Американская компания Hume выпустила третье поколение своей речевой модели под названием EVI 3. Посредством данной нейросети легко обрабатывается устный язык и синтезируется речь. Главное отличие от предшествующих версий при этом заключается в возможности генерации любого голоса при помощи текстового промпта. Модель работает в режиме стриминга. Речь принимается на входе, а на выходе формируются речевые ответы.

Технические особенности и архитектура

EVI 3 построена на авторегрессионной архитектуре, которая обрабатывает как текстовые, так и голосовые токены в едином потоке. Системный промпт состоит из обоих типов токенов: текстовые задают языковые инструкции (как в обычных LLM), а голосовые формируют стиль речи ассистента.

Вместо традиционного подхода с файн-тюнингом на отдельных дикторах Hume разработала методы, которые захватывают весь диапазон человеческих голосов и стилей речи в одной модели. Затем EVI 3 научили выделять и воспроизводить предпочтительные качества любого человеческого голоса. На финальном шаге реализован стриминговый подход, который дает возможность модели отвечать с разговорной задержкой. Благодаря перечисленному пользователи имеют возможность обращаться к любому из более чем 100 000 кастомных голосов, уже созданных на платформе text-to-speech компании, и каждый из них будет иметь свою «личность».

Модель способна отвечать с широким диапазоном эмоций или стилей (как по явному запросу, так и неявно); при этом берется в расчет контекст диалога. EVI 3 генерирует речь того же качества, что и текстовая модель Octave от Hume, но делает это в реальном времени, параллельно с обработкой языковой части запроса. Задержка ответа составляет менее 300 миллисекунд, хотя реальная латентность для конечного пользователя определяется сетевыми условиями и текущей нагрузкой.

Результаты тестирования и сравнение с конкурентами

Hume провела несколько оценок, сравнивая EVI 3 с другими голосовыми моделями (в их число вошли GPT-4o от OpenAI, Gemini и Sesame). В слепом сравнении участники вели диалоги длительностью от одной до трех минут с задачей заставить модель сказать что-то интересное. После этого они оценивали модели по семи параметрам: развлекательность, качество аудио, эмпатия, экспрессивность, обработка прерываний, естественность и скорость ответа. По результатам EVI 3 получила более высокие оценки в среднем по всем этим метрикам по сравнению с GPT-4o.

В тесте на модуляцию эмоций и стилей участникам нужно было заставить модели выразить 30 различных эмоций и манер речи; например, грусть, тревогу, специфические переживания («говори, как пират»). После каждого взаимодействия участники оценивали то, насколько хорошо модели удалось передать запрошенную эмоцию по шкале от 1 до 5. EVI 3 показала более высокие результаты в этом тесте по сравнению с конкурентами.

Практическое применение, минусы платформы

Платформа достаточно удобна в использовании. Как можно увидеть на скрине ниже, все опции представлены в понятной форме.

Пройдя быструю регистрацию (сделать это можно при помощи аккаунта Google), пользователь получает возможность сразу же перейти к работе. Можно клонировать голос, создать новый на основе промпта; также доступна конвертация голоса (при этом, как и в других случаях, имеется опция записи собственного голоса или же загрузка файла с устройства).

Эмоциональную окраску голоса можно менять в динамике; потому модель будет пригодна для любых проектов, в которых важна не только точность произношения, но и передача того или иного настроения. Например, если голос нужен вам для записи образовательного курса. Опция «Речь в текст» представлена в предшествующих моделях сервиса, и, как отмечают пользователи, не особенно удобна на данном портале. Отметим, что на сайте Креатор Проджект имеется функционал перевода речи в текст, с помощью которого можно быстро создать транскрипцию аудиофайлов в различных форматах.

Интеграция с другими AI-сервисами позволяет EVI 3 выстраивать производственные конвейеры: генерация текста и сценария в одном инструменте, создание визуала в другом, а финальная озвучка через EVI 3. Модель совместима с аудиоредакторами, что предоставляет возможность дорабатывать треки, добавлять звуковые эффекты и убирать фоновый шум.

Тем не менее, есть и определенные нюансы. Не всегда результат получается качественным и в принципе соответствующим ожиданиям. Модель, конечно, генерирует реалистичные голоса, однако для этого нужны тщательные настройки параметров.

И, конечно, немаловажный минус EVI 3 состоит в том, что количество доступных в библиотеке готовых голосов, в основном, представлены на английском. К примеру, на русском языке представлено всего три голоса; на немецком – два.

Выводы

EVI 3 демонстрирует впечатляющий прогресс в области генерации речи, сочетая обработку текста и голоса в одной стриминговой архитектуре. Модель выделяется широкими возможностями эмоциональной модуляции и качеством синтеза, особенно на английском языке. Однако все же стоит помнить и о ее минусах: ограниченный выбор голосов на других языках и необходимость тонкой настройки параметров могут не удовлетворить потребности, имеющиеся у части потенциальных пользователей системы.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

2 комментария к “Стриминговая генерация речи и поддержка кастомных голосов. Обзор Hume EVI 3

  1. Действительно впечатляющая речевая языковая модель, которая задаёт новые стандарты в области генерации речи и взаимодействия с ИИ. Её возможности по созданию реалистичных голосов, пониманию и выражению эмоций делают её мощным инструментом для различных сфер — от развлечений до медицины. Однако вместе с этим необходимо учитывать и потенциальные риски, связанные с возможностью злоупотребления технологией. EVI 3 демонстрирует, как далеко шагнул прогресс в области искусственного интеллекта, и намекает на ещё более впечатляющие разработки в будущем.

  2. Интересный обзор — особенно впечатляет, насколько Hume EVI 3 продвинулся в сторону более естественной и эмоциональной речи. Стриминговая генерация звучит как действительно важный шаг вперёд, особенно для сервисов, где важна живая подача в реальном времени. Интересно, насколько гибко работает поддержка кастомных голосов и можно ли добиться полностью уникального тембра без «синтетических» оттенков.

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять