Новости

Mistral выпустила Open Source TTS‑модель Voxtral для голосовых ассистентов и корпоративных клиентов

28.03.202628.03.2026

Источник изображения: Thomas Fuller / NurPhoto via Getty Images / Getty Images

Французская Mistral в четверг выпустила новую модель синтеза речи с открытым исходным кодом, которую можно использовать голосовыми ИИ-ассистентами или в корпоративных сценариях, например в службе поддержки. Модель, позволяющая компаниям создавать голосовых агентов для продаж и взаимодействия с клиентами, выводит Mistral в прямую конкуренцию с такими игроками, как ElevenLabs, Deepgram и OpenAI.

Смотрите видео на удобном для вас ресурсе!

YouTube ВК.Видео RuTube ОК

Новая модель, получившая название Voxtral TTS, поддерживает девять языков, включая английский, французский, немецкий, испанский, нидерландский, португальский, итальянский, хинди и арабский.

«Наши клиенты просили модель речи. Поэтому мы создали малогабаритную модель речи, которая может поместиться на смарт-часах, смартфоне, ноутбуке или других периферийных устройствах. Её стоимость — лишь доля от всего остального на рынке, при этом она обеспечивает производительность на уровне передовых решений», — рассказал Пьер Сток, вице-президент по научным операционным вопросам в Mistral AI.

Источник изображения: Mistral

Mistral заявила, что новая модель может адаптировать пользовательский голос по образцу длительностью менее пяти секунд и способна воспроизводить такие характеристики, как тонкие акценты, модуляции, интонации и неровности речевого потока. Модель, основанная на Ministral 3B, может легко переключаться между языками, не теряя особенностей голоса, что полезно для таких сценариев, как дубляж или перевод в реальном времени. По словам Стока, компания хотела, чтобы модель звучала по-человечески, а не роботизированно.

По данным компании, модель создана для работы в реальном времени. Её показатель time-to-first-audio (TTFA) — метрика, отражающая, когда модель начинает «говорить» после получения входных данных, — составляет 90 мс для 10-секундного образца объёмом 500 символов. У модели также есть real-time factor (RTF) 6x, то есть она может сгенерировать 10-секундный фрагмент примерно за 1,6 секунды.

Источник изображения: Mistral

Ранее в этом году Mistral представила пару моделей транскрибации: одну для пакетной обработки больших объёмов, а другую — для сценариев реального времени с низкой задержкой. С новой речевой моделью компания, вероятно, стремится предоставить предприятиям полный набор голосовых продуктов.

«Мы планируем создать сквозную платформу, которая сможет обрабатывать мультимодальные потоки входных данных, включая аудио, текст и изображение, а также формировать выходные данные. Главное преимущество в том, что в сквозной агентной системе, поддерживающей аудио как вход или выход, вы получаете гораздо больше информации», — сказал Сток.

Позиционирование Mistral заключается в том, что её подход с открытым исходным кодом и возможностями кастомизации поможет предприятиям выбирать её голосовые модели вместо решений конкурентов, поскольку их можно настраивать так, как нужно.

Источник: TechCrunch

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Статьи и новости о нейросетях и искусственном интеллекте, просто и понятно о сложных технологиях. Освещает современные тенденции, объясняет, как работают ИИ-системы, и показывает, каким образом нейросети меняют различные сферы жизни. Регулярно собирает подборки и топы полезных нейросетей, тщательно отбирая актуальные инструменты и сервисы, которые могут существенно упростить рабочие и повседневные задачи. В своих подборках делится описаниями возможностей каждой нейросети, а также рекомендациями по их применению, чтобы помочь читателям быстро разобраться в новых технологиях и использовать их с максимальной пользой.

Социальные сети автора:

Интересно? Поделиться:

Добавить комментарий Отменить ответ

Рекомендуем почитать

Главная страница Cleanup.pictures

Улучшение изображений при помощи Cleanup.pictures. Когда ненужное исчезает за пару секунд

Существует интересное противоречие в современной фотографии. С одной стороны, камеры стали настолько доступными и удобными, что люди фотографируют все подряд…

Главная страница Photoroom

Создаем товарные фото за минуты с Photoroom. Обзор платформы

Платформа Photoroom появилась в качестве решения тех, кому нужны профессиональные фотографии товаров без необходимости найма дизайнеров. С распространением нейросетей появилась…

Главная страница Zhipu AI

Китайский гигант Zhipu GLM-4.6: открытая модель с 357 миллиардами параметров

Китайская AI-индустрия развивается с той скоростью, при которой западные наблюдатели не успевают обновлять сравнительные таблицы. Пока одни компании анонсируют модели,…

Обзор нейросети Saiga AI

Русскоязычная LLM для тех, кто устал от облачной зависимости. Обзор нейросети Saiga

В области языковых моделей сегодня сложилась странная ситуация. С одной стороны располагаются мощные облачные гиганты типа GPT или Claude, которые…

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Отправить

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.

Принять

Подробнее…

Политика конфиденциальности