Не только слушать, но и говорить: что умеет новая модель MAI-Voice-1 от Microsoft

Если модель MAI-Transcribe-1 превращает речь в текст, то MAI-Voice-1 делает ровно противоположное. Она берет текст и превращает его обратно в речь. Да, это разные модели. Хотя вышли они в один день и составляют вместе нечто вроде пары: одна слушает, другая говорит. В апреле 2026 года команда MAI (Microsoft AI) Superintelligence выпустила сразу три модели, и MAI-Voice-1 среди них отвечает за генерацию голоса. Не за распознавание, не за картинки, а исключительно за то, чтобы машина звучала как человек. Причем не просто звучала, а звучала убедительно.

Смотрите видео на удобном для вас ресурсе!

Что умеет и как устроена

MAI-Voice-1 представляет собой нейросетевую TTS-модель (аббревиатура расшифровывается как «text-to-speech», или же «текст в речь»). Она принимает на вход текстовый материал и отдает аудио в форматах MP3, WAV или Opus. Главная заявленная характеристика: минута звучания генерируется менее чем за одну секунду. Это не опечатка. 60 секунд выхода за меньше одной секунды вычислений.

Модель поддерживает как пакетный синтез (batch), так и стриминг; то есть, аудио может поступать к пользователю порциями по мере генерации, без необходимости дожидаться полной готовности. В работе голосовых агентов и интерактивных ассистентов данный момент принципиально важен: никто не хочет ждать, пока ИИ «обдумает» весь ответ, прежде чем начать его произносить.

Отдельно стоит упомянуть то, как модель обрабатывает входящий текст. MAI-Voice-1 интерпретирует его целостно. То есть, не слово за словом, а весь фрагмент в контексте. Иными словами, темп, ритм и эмоциональная окраска речи подстраиваются автоматически, без необходимости прописывать каждый нюанс вручную. Модель сама решает, где сделать паузу, где ускориться или добавить интонацию. И в большинстве случаев угадывает.

Демонстрация MAI-Voice-1 в Microsoft AI Playground

Голоса и возможность клонирования

На старте MAI-Voice-1 предлагает шесть готовых голосов (все на американском английском). Их имена: Jasper, June, Grant, Iris, Reed и Joy. Каждый заточен под определенные сценарии использования. К примеру, Jasper рекомендован для продаж и эмоционально насыщенных разговоров, June – для клиентского сервиса и профессиональной коммуникации. Iris подходит для рассказов и озвучивания длинного контента. Остальные перекрывают общие разговорные сценарии. Набор стилей на старте скромнее, чем у ElevenLabs, однако все же довольно разнообразен.

Что касается клонирования голоса, то доступ к этой опции закрытый. Сначала требуется подать заявку через Azure AI и получить одобрение от Microsoft. Без прохождения этого процесса функция недоступна. Такой подход стал осознанным решением для Microsoft. Компания встроила в модель защиту от очевидных злоупотреблений: подделки голоса, создания дипфейков и прочих применений, которые превратили бы технологию клонирования в головную боль. При этом шесть готовых голосов доступны сразу, без какого-либо одобрения, и для большинства задач этого вполне достаточно.

Что касается языков, то на момент релиза MAI-Voice-1 работает только на английском. Многоязычная поддержка анонсирована как «скоро», однако сроки не конкретизированы. По мнению экспертов Креатор Проджект, данное ограничение является довольно существенным, особенно когда речь идет о глобальном продукте.

Где применяется и как подключается модель

Область применения MAI-Voice-1 охватывает широкий спектр различных областей: голосовые агенты для колл-центров, подкасты и аудиостатьи, озвучивание учебных материалов, субтитры и доступность для людей с ограниченными возможностями, нарративы для видео. Microsoft уже использует MAI-Voice-1 внутри собственных продуктов; к примеру, Copilot Audio Expressions и функции подкастов работают именно на этой модели.

С точки зрения разработчика MAI-Voice-1 работает так же, как и любой другой голос в Azure Speech. Приложение отправляет текст в сервис синтеза речи Microsoft, указывая в запросе нужный голос, а на выходе выдает готовый аудиофайл. Если команда уже использует Azure Speech для озвучивания контента, чат-ботов или голосовых интерфейсов, никаких новых инструментов изучать не придется: используются те же SDK, API и SSML-разметка.

Для конечного пользователя процесс выглядит еще проще. Система получает текст, анализирует его структуру, расставляет интонации и паузы. После этого она генерирует речь, максимально приближенную к живому человеческому голосу. Разработчик может встроить этот механизм в приложение, сайт или контакт-центр и получать озвучку практически в реальном времени, не записывая дикторов и не занимаясь обработкой аудио вручную.

Источник: https://www.windowscentral.com/artificial-intelligence/microsoft-launches-mai-voice-1-and-mai-1-preview

Выводы

MAI-Voice-1 пока остается продуктом ранней стадии: модель доступна в статусе публичного превью и поддерживает только англоязычные голоса. При этом Microsoft уже обозначила направление развития линейки; вслед за первой версией компания представила MAI-Voice-2 с расширенной языковой поддержкой и более широкими возможностями. Если развитие платформы продолжится такими же темпами, решения семейства MAI Voice могут стать заметным конкурентом ElevenLabs, Google Cloud Text-to-Speech и прочим ресурсам синтеза речи.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности