Mistral выпустила Open Source TTS‑модель Voxtral для голосовых ассистентов и корпоративных клиентов

Французская Mistral в четверг выпустила новую модель синтеза речи с открытым исходным кодом, которую можно использовать голосовыми ИИ-ассистентами или в корпоративных сценариях, например в службе поддержки. Модель, позволяющая компаниям создавать голосовых агентов для продаж и взаимодействия с клиентами, выводит Mistral в прямую конкуренцию с такими игроками, как ElevenLabs, Deepgram и OpenAI.

Смотрите видео на удобном для вас ресурсе!

Новая модель, получившая название Voxtral TTS, поддерживает девять языков, включая английский, французский, немецкий, испанский, нидерландский, португальский, итальянский, хинди и арабский.

«Наши клиенты просили модель речи. Поэтому мы создали малогабаритную модель речи, которая может поместиться на смарт-часах, смартфоне, ноутбуке или других периферийных устройствах. Её стоимость — лишь доля от всего остального на рынке, при этом она обеспечивает производительность на уровне передовых решений», — рассказал Пьер Сток, вице-президент по научным операционным вопросам в Mistral AI.

Источник изображения: Mistral

Mistral заявила, что новая модель может адаптировать пользовательский голос по образцу длительностью менее пяти секунд и способна воспроизводить такие характеристики, как тонкие акценты, модуляции, интонации и неровности речевого потока. Модель, основанная на Ministral 3B, может легко переключаться между языками, не теряя особенностей голоса, что полезно для таких сценариев, как дубляж или перевод в реальном времени. По словам Стока, компания хотела, чтобы модель звучала по-человечески, а не роботизированно.

По данным компании, модель создана для работы в реальном времени. Её показатель time-to-first-audio (TTFA) — метрика, отражающая, когда модель начинает «говорить» после получения входных данных, — составляет 90 мс для 10-секундного образца объёмом 500 символов. У модели также есть real-time factor (RTF) 6x, то есть она может сгенерировать 10-секундный фрагмент примерно за 1,6 секунды.

Источник изображения: Mistral

Ранее в этом году Mistral представила пару моделей транскрибации: одну для пакетной обработки больших объёмов, а другую — для сценариев реального времени с низкой задержкой. С новой речевой моделью компания, вероятно, стремится предоставить предприятиям полный набор голосовых продуктов.

«Мы планируем создать сквозную платформу, которая сможет обрабатывать мультимодальные потоки входных данных, включая аудио, текст и изображение, а также формировать выходные данные. Главное преимущество в том, что в сквозной агентной системе, поддерживающей аудио как вход или выход, вы получаете гораздо больше информации», — сказал Сток.

Позиционирование Mistral заключается в том, что её подход с открытым исходным кодом и возможностями кастомизации поможет предприятиям выбирать её голосовые модели вместо решений конкурентов, поскольку их можно настраивать так, как нужно.

Источник: TechCrunch

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности