Стриминговая генерация речи и поддержка кастомных голосов. Обзор Hume EVI 3

09.12.202511.02.2026

Главная страница Hume

Американская компания Hume выпустила третье поколение своей речевой модели под названием EVI 3. Посредством данной нейросети легко обрабатывается устный язык и синтезируется речь. Главное отличие от предшествующих версий при этом заключается в возможности генерации любого голоса при помощи текстового промпта. Модель работает в режиме стриминга. Речь принимается на входе, а на выходе формируются речевые ответы.

Смотрите видео на удобном для вас ресурсе!

YouTube ВК.Видео Дзен RuTube ОК

Технические особенности и архитектура

EVI 3 построена на авторегрессионной архитектуре, которая обрабатывает как текстовые, так и голосовые токены в едином потоке. Системный промпт состоит из обоих типов токенов: текстовые задают языковые инструкции (как в обычных LLM), а голосовые формируют стиль речи ассистента.

Вместо традиционного подхода с файн-тюнингом на отдельных дикторах Hume разработала методы, которые захватывают весь диапазон человеческих голосов и стилей речи в одной модели. Затем EVI 3 научили выделять и воспроизводить предпочтительные качества любого человеческого голоса. На финальном шаге реализован стриминговый подход, который дает возможность модели отвечать с разговорной задержкой. Благодаря перечисленному пользователи имеют возможность обращаться к любому из более чем 100 000 кастомных голосов, уже созданных на платформе text-to-speech компании, и каждый из них будет иметь свою «личность».

Модель способна отвечать с широким диапазоном эмоций или стилей (как по явному запросу, так и неявно); при этом берется в расчет контекст диалога. EVI 3 генерирует речь того же качества, что и текстовая модель Octave от Hume, но делает это в реальном времени, параллельно с обработкой языковой части запроса. Задержка ответа составляет менее 300 миллисекунд, хотя реальная латентность для конечного пользователя определяется сетевыми условиями и текущей нагрузкой.

Результаты тестирования и сравнение с конкурентами

Hume провела несколько оценок, сравнивая EVI 3 с другими голосовыми моделями (в их число вошли GPT-4o от OpenAI, Gemini и Sesame). В слепом сравнении участники вели диалоги длительностью от одной до трех минут с задачей заставить модель сказать что-то интересное. После этого они оценивали модели по семи параметрам: развлекательность, качество аудио, эмпатия, экспрессивность, обработка прерываний, естественность и скорость ответа. По результатам EVI 3 получила более высокие оценки в среднем по всем этим метрикам по сравнению с GPT-4o.

В тесте на модуляцию эмоций и стилей участникам нужно было заставить модели выразить 30 различных эмоций и манер речи; например, грусть, тревогу, специфические переживания («говори, как пират»). После каждого взаимодействия участники оценивали то, насколько хорошо модели удалось передать запрошенную эмоцию по шкале от 1 до 5. EVI 3 показала более высокие результаты в этом тесте по сравнению с конкурентами.

Практическое применение, минусы платформы

Платформа достаточно удобна в использовании. Как можно увидеть на скрине ниже, все опции представлены в понятной форме.

Пройдя быструю регистрацию (сделать это можно при помощи аккаунта Google), пользователь получает возможность сразу же перейти к работе. Можно клонировать голос, создать новый на основе промпта; также доступна конвертация голоса (при этом, как и в других случаях, имеется опция записи собственного голоса или же загрузка файла с устройства).

Эмоциональную окраску голоса можно менять в динамике; потому модель будет пригодна для любых проектов, в которых важна не только точность произношения, но и передача того или иного настроения. Например, если голос нужен вам для записи образовательного курса. Опция «Речь в текст» представлена в предшествующих моделях сервиса, и, как отмечают пользователи, не особенно удобна на данном портале. Отметим, что на сайте Креатор Проджект имеется функционал перевода речи в текст, с помощью которого можно быстро создать транскрипцию аудиофайлов в различных форматах.

Интеграция с другими AI-сервисами позволяет EVI 3 выстраивать производственные конвейеры: генерация текста и сценария в одном инструменте, создание визуала в другом, а финальная озвучка через EVI 3. Модель совместима с аудиоредакторами, что предоставляет возможность дорабатывать треки, добавлять звуковые эффекты и убирать фоновый шум.

Тем не менее, есть и определенные нюансы. Не всегда результат получается качественным и в принципе соответствующим ожиданиям. Модель, конечно, генерирует реалистичные голоса, однако для этого нужны тщательные настройки параметров.

И, конечно, немаловажный минус EVI 3 состоит в том, что количество доступных в библиотеке готовых голосов, в основном, представлены на английском. К примеру, на русском языке представлено всего три голоса; на немецком – два.

Выводы

EVI 3 демонстрирует впечатляющий прогресс в области генерации речи, сочетая обработку текста и голоса в одной стриминговой архитектуре. Модель выделяется широкими возможностями эмоциональной модуляции и качеством синтеза, особенно на английском языке. Однако все же стоит помнить и о ее минусах: ограниченный выбор голосов на других языках и необходимость тонкой настройки параметров могут не удовлетворить потребности, имеющиеся у части потенциальных пользователей системы.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Разбор и оценка ИИ-моделей и проектов, внимательно отслеживает развитие технологий и тенденции в области искусственного интеллекта. Аналитические обзоры помогают понять принципы работы ИИ, их возможности и ограничения, дает рекомендации по использованию инновационных решений в различных сферах. Делает сложные темы доступными для широкой аудитории.

Интересно? Поделиться:

2 комментария к “Стриминговая генерация речи и поддержка кастомных голосов. Обзор Hume EVI 3”

Андрей:

10.12.2025 в 09:57

Действительно впечатляющая речевая языковая модель, которая задаёт новые стандарты в области генерации речи и взаимодействия с ИИ. Её возможности по созданию реалистичных голосов, пониманию и выражению эмоций делают её мощным инструментом для различных сфер — от развлечений до медицины. Однако вместе с этим необходимо учитывать и потенциальные риски, связанные с возможностью злоупотребления технологией. EVI 3 демонстрирует, как далеко шагнул прогресс в области искусственного интеллекта, и намекает на ещё более впечатляющие разработки в будущем.
pipip vovka:

10.12.2025 в 14:02

Интересный обзор — особенно впечатляет, насколько Hume EVI 3 продвинулся в сторону более естественной и эмоциональной речи. Стриминговая генерация звучит как действительно важный шаг вперёд, особенно для сервисов, где важна живая подача в реальном времени. Интересно, насколько гибко работает поддержка кастомных голосов и можно ли добиться полностью уникального тембра без «синтетических» оттенков.

Обсуждение закрыто.

Рекомендуем почитать

Белый Xbox Series X

Xbox в этом году выпустит ИИ‑помощника Gaming Copilot на консолях текущего поколения

Xbox, согласно сообщению GamesRadar, в этом году готовится запустить своего ИИ-помощника Gaming Copilot на «консолях текущего поколения». Сонали Ядав, менеджер…

Женщина проходит мимо гигантского экрана с логотипом на мероприятии в парижской лаборатории Google Lab в рамках саммита AI Action Summit в Париже, 9 февраля 2025 года

Google Maps делает ставку на Gemini: новые ИИ‑функции для поиска мест и навигации

Google Maps будет в большей степени полагаться на искусственный интеллект, помогая людям определяться с тем, куда они хотят поехать, и…

Логотип YouTube

YouTube расширяет технологию выявления дипфейков: доступ получат политики, чиновники и журналисты

YouTube расширяет свою технологию распознавания внешности, которая выявляет созданные ИИ дипфейки, на пилотную группу чиновников, политических кандидатов и журналистов, сообщила…

Сэм Альтман

OpenAI приобрела стартап Promptfoo для улучшения безопасности ИИ-агентов

OpenAI в понедельник объявила о приобретении Promptfoo — стартапа в сфере ИИ-безопасности, основанного в 2024 году для защиты LLM от…

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Отправить

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.

Принять

Подробнее…

Политика конфиденциальности