Voxtral Transcribe 2. Новый шаг к голосовым агентам

10.04.202610.04.2026

Французская компания Mistral выпустила Voxtral Transcribe 2, семейство из двух моделей распознавания речи следующего поколения с впечатляющим качеством транскрибации и ультранизкой задержкой. Линейка представлена моделями Voxtral Mini Transcribe V2, предназначенной для пакетной обработки, а также Voxtral Realtime, которую используют непосредственно для «живой» транскрибации. Последняя модель распространяется с открытыми весами под лицензией Apache 2.0, что стало приятным бонусом для разработчиков, которым важен аспект приватности. Параллельно с релизом Mistral запустила аудио-песочницу в Mistral Studio, в которой можно мгновенно протестировать транскрибацию с диаризацией (разделением дикторов) и временными метками.

Смотрите видео на удобном для вас ресурсе!

YouTube ВК.Видео RuTube ОК

Архитектура без компромиссов

Voxtral Realtime спроектирована специально для приложений, в работе которых критически важен показатель задержки. Realtime использует новую потоковую архитектуру, которая транскрибирует звук по мере его поступления. Модель выдает результаты с настраиваемой задержкой менее 200 миллисекунд; многие эксперты уже сегодня полагают, что этот продукт Mistral сегодня открывает новый класс голосовых приложений. При задержке 2.4 секунды, оптимально подходящей для создания субтитров, Realtime сравнивается с новейшей пакетной моделью Voxtral Mini Transcribe V2. При 480 миллисекундах погрешность остается в пределах 1-2 %, что позволяет создавать голосовых агентов с точностью, близкой к офлайн-обработке.

Модель является мультиязычной. Особенно сильную производительность транскрибации она показывает на 13 языках, среди которых английский, китайский, испанский, арабский, французский, русский, немецкий и другие. Использование в ИИ-студии Mistral будет простым и понятным для любого юзера.

Здесь доступны как обработка речи в текст, так и наоборот:

Размер составляет 4 млрд. параметров; веса модели доступны под лицензией Apache 2.0 на Hugging Face Hub в виде загрузки на 8.87 гигабайт.

Модель корректно транскрибирует быструю речь с техническим жаргоном, при этом текст выдается буквально через мгновение после произнесения каждого звука. Сообщение «No microphone found» при первом запуске не должно смущать – после нажатия «Record» браузер запросит разрешение и демо заработает.

Пакетная обработка без разорения

Voxtral Mini Transcribe V2 демонстрирует значительные улучшения в качестве транскрибации и диаризации по языкам и доменам. Модель превосходит GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal и Deepgram Nova по точности, обрабатывая аудио примерно в три раза быстрее, чем ElevenLabs Scribe v2. При этом качество конечного результата сопоставимо с данными моделями, а цена – в несколько раз ниже.

Тестировать Voxtral Transcribe 2 можно напрямую в Mistral Studio. Интерфейс позволяет загружать до 10 аудиофайлов, переключать диаризацию, выбирать детализацию временных меток и добавлять термины контекстного смещения для специфической лексики домена. Поддерживаются форматы .mp3, .wav, .m4a, .flac, .ogg размером до 1 гигабайта каждый. Отметим, что на многофункциональном портале Креатор Проджект также доступна транскрибация аудиофайлов в различных форматах.

Функция диаризации в Voxtral Transcribe V2 четко определяет, кто что сказал и когда; эта возможность будет критически важна в тех случаях, когда пользователю нужно обработать многоголосые записи совещаний или же звонки в контакт-центре. Контекстное смещение справляется с именами собственными и технической терминологией, на которых спотыкаются универсальные сервисы транскрибации.

Применение модели

Voxtral открывает возможности для обработки голосовых записей в самых разнообразных приложениях и областях. К примеру, модель хорошо подойдет для интеллектуального анализа совещаний, записей лекций и пр.

Голосовые агенты и виртуальные ассистенты получают возможность работать с задержкой транскрибации менее 200 миллисекунд. Подключение Voxtral Realtime к LLM и TTS-конвейеру позволило сформировать отзывчивые голосовые интерфейсы, которые ощущаются естественными. Автоматизация контакт-центров позволяет транскрибировать звонки в режиме реального времени, благодаря чему AI-системы теперь могут анализировать настроение, предлагать ответы и заполнять поля CRM. И все это делается в тот момент, пока разговоры еще идут. Диаризация обеспечивает четкое разделение между агентами и клиентами.

Главное в Voxtral Transcribe 2, по нашему мнению, не отдельные метрики, а изменение планки ожиданий: транскрибация перестает быть офлайн-инструментом и становится частью живых AI-систем. Чем дешевле и быстрее работает распознавание речи, тем быстрее голосовые интерфейсы превращаются из эксперимента в стандартный способ взаимодействия с софтом.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Разбор и оценка ИИ-моделей и проектов, внимательно отслеживает развитие технологий и тенденции в области искусственного интеллекта. Аналитические обзоры помогают понять принципы работы ИИ, их возможности и ограничения, дает рекомендации по использованию инновационных решений в различных сферах. Делает сложные темы доступными для широкой аудитории.

Интересно? Поделиться:

3 комментария к “Voxtral Transcribe 2. Новый шаг к голосовым агентам”

Glintvein47:

10.04.2026 в 17:39

Интересно было узнать, что французы тоже активно занимаются разработками в области ИИ. А то везде пишут в основном о разработках Китая и США, из-за чего складывается впечатление, что в других странах нейросети вообще не развиваются.

Ответить
Андрей Седов:

10.04.2026 в 17:51

Я работаю с подкастами и обучающими курсами. Раньше транскрибировал аудио вручную или использовал сторонние сервисы, которые вечно ошибались. С Voxtral Transcribe 2 процесс упростился: Автоматические субтитры для видео. Загрузил ролик и через 5 минут получил готовый SRT файл. Зрители довольны: контент доступен для глухонемых, плюс текст помогает в SEO. Обработка интервью. Раньше тратил 3 — 4 часа на расшифровку часового разговора. Теперь 15 минут на проверку автотранскрипции. Анализ звонков клиентов. Интегрировал с CRM: теперь после звонка система сама создаёт текстовую заметку с ключевыми моментами это удобно для обучения команды.

Ответить
Edvins:

10.04.2026 в 21:27

В новой версии внедрены усовершенствованные алгоритмы машинного обучения, которые позволяют более точно распознавать не только слова, но и интонацию, эмоциональное состояние говорящего, что значительно повышает качество взаимодействия между человеком и машиной. Также подчеркнута широта сферы применения — от медицины и образования до бизнес-коммуникаций, что делает Voxtral Transcribe 2 перспективным инструментом для профессиональных пользователей.

Ответить

Добавить комментарий Отменить ответ

Рекомендуем почитать

Вывеска на дата-центре Google в Мидлотиане, штат Техас, США, пятница, 14 ноября 2025 года

Google выпустила на iOS офлайн‑приложение для диктовки Google AI Edge Eloquent

Google без лишнего шума выпустила на iOS ориентированное на работу офлайн приложение для диктовки под названием «Google AI Edge Eloquent»,…

Cohere Transcribe

Cohere выпустила голосовую модель с открытым исходным кодом для транскрибации

Корпоративная ИИ-компания Cohere представила свою первую голосовую модель: Transcribe — это модель автоматического распознавания речи с открытым исходным кодом, которую…

Mistral AI

Mistral выпустила Open Source TTS‑модель Voxtral для голосовых ассистентов и корпоративных клиентов

Французская Mistral в четверг выпустила новую модель синтеза речи с открытым исходным кодом, которую можно использовать голосовыми ИИ-ассистентами или в…

Главная страница Cleanup.pictures

Улучшение изображений при помощи Cleanup.pictures. Когда ненужное исчезает за пару секунд

Существует интересное противоречие в современной фотографии. С одной стороны, камеры стали настолько доступными и удобными, что люди фотографируют все подряд…

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Отправить

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.

Принять

Подробнее…

Политика конфиденциальности