Voxtral Transcribe 2. Новый шаг к голосовым агентам

Французская компания Mistral выпустила Voxtral Transcribe 2, семейство из двух моделей распознавания речи следующего поколения с впечатляющим качеством транскрибации и ультранизкой задержкой. Линейка представлена моделями Voxtral Mini Transcribe V2, предназначенной для пакетной обработки, а также Voxtral Realtime, которую используют непосредственно для «живой» транскрибации. Последняя модель распространяется с открытыми весами под лицензией Apache 2.0, что стало приятным бонусом для разработчиков, которым важен аспект приватности. Параллельно с релизом Mistral запустила аудио-песочницу в Mistral Studio, в которой можно мгновенно протестировать транскрибацию с диаризацией (разделением дикторов) и временными метками.

Смотрите видео на удобном для вас ресурсе!

Архитектура без компромиссов

Voxtral Realtime спроектирована специально для приложений, в работе которых критически важен показатель задержки. Realtime использует новую потоковую архитектуру, которая транскрибирует звук по мере его поступления. Модель выдает результаты с настраиваемой задержкой менее 200 миллисекунд; многие эксперты уже сегодня полагают, что этот продукт Mistral сегодня открывает новый класс голосовых приложений. При задержке 2.4 секунды, оптимально подходящей для создания субтитров, Realtime сравнивается с новейшей пакетной моделью Voxtral Mini Transcribe V2. При 480 миллисекундах погрешность остается в пределах 1-2 %, что позволяет создавать голосовых агентов с точностью, близкой к офлайн-обработке.

Модель является мультиязычной. Особенно сильную производительность транскрибации она показывает на 13 языках, среди которых английский, китайский, испанский, арабский, французский, русский, немецкий и другие. Использование в ИИ-студии Mistral будет простым и понятным для любого юзера.

Здесь доступны как обработка речи в текст, так и наоборот:

Размер составляет 4 млрд. параметров; веса модели доступны под лицензией Apache 2.0 на Hugging Face Hub в виде загрузки на 8.87 гигабайт.

Модель корректно транскрибирует быструю речь с техническим жаргоном, при этом текст выдается буквально через мгновение после произнесения каждого звука. Сообщение «No microphone found» при первом запуске не должно смущать – после нажатия «Record» браузер запросит разрешение и демо заработает.

Пакетная обработка без разорения

Voxtral Mini Transcribe V2 демонстрирует значительные улучшения в качестве транскрибации и диаризации по языкам и доменам. Модель превосходит GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal и Deepgram Nova по точности, обрабатывая аудио примерно в три раза быстрее, чем ElevenLabs Scribe v2. При этом качество конечного результата сопоставимо с данными моделями, а цена – в несколько раз ниже.

Тестировать Voxtral Transcribe 2 можно напрямую в Mistral Studio. Интерфейс позволяет загружать до 10 аудиофайлов, переключать диаризацию, выбирать детализацию временных меток и добавлять термины контекстного смещения для специфической лексики домена. Поддерживаются форматы .mp3, .wav, .m4a, .flac, .ogg размером до 1 гигабайта каждый. Отметим, что на многофункциональном портале Креатор Проджект также доступна транскрибация аудиофайлов в различных форматах.

Функция диаризации в Voxtral Transcribe V2 четко определяет, кто что сказал и когда; эта возможность будет критически важна в тех случаях, когда пользователю нужно обработать многоголосые записи совещаний или же звонки в контакт-центре. Контекстное смещение справляется с именами собственными и технической терминологией, на которых спотыкаются универсальные сервисы транскрибации.

Применение модели

Voxtral открывает возможности для обработки голосовых записей в самых разнообразных приложениях и областях. К примеру, модель хорошо подойдет для интеллектуального анализа совещаний, записей лекций и пр.

Голосовые агенты и виртуальные ассистенты получают возможность работать с задержкой транскрибации менее 200 миллисекунд. Подключение Voxtral Realtime к LLM и TTS-конвейеру позволило сформировать отзывчивые голосовые интерфейсы, которые ощущаются естественными. Автоматизация контакт-центров позволяет транскрибировать звонки в режиме реального времени, благодаря чему AI-системы теперь могут анализировать настроение, предлагать ответы и заполнять поля CRM. И все это делается в тот момент, пока разговоры еще идут. Диаризация обеспечивает четкое разделение между агентами и клиентами.

Главное в Voxtral Transcribe 2, по нашему мнению, не отдельные метрики, а изменение планки ожиданий: транскрибация перестает быть офлайн-инструментом и становится частью живых AI-систем. Чем дешевле и быстрее работает распознавание речи, тем быстрее голосовые интерфейсы превращаются из эксперимента в стандартный способ взаимодействия с софтом.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

3 комментария к “Voxtral Transcribe 2. Новый шаг к голосовым агентам

  1. Интересно было узнать, что французы тоже активно занимаются разработками в области ИИ. А то везде пишут в основном о разработках Китая и США, из-за чего складывается впечатление, что в других странах нейросети вообще не развиваются.

  2. Я работаю с подкастами и обучающими курсами. Раньше транскрибировал аудио вручную или использовал сторонние сервисы, которые вечно ошибались. С Voxtral Transcribe 2 процесс упростился: Автоматические субтитры для видео. Загрузил ролик и через 5 минут получил готовый SRT файл. Зрители довольны: контент доступен для глухонемых, плюс текст помогает в SEO. Обработка интервью. Раньше тратил 3 — 4 часа на расшифровку часового разговора. Теперь 15 минут на проверку автотранскрипции. Анализ звонков клиентов. Интегрировал с CRM: теперь после звонка система сама создаёт текстовую заметку с ключевыми моментами это удобно для обучения команды.

  3. В новой версии внедрены усовершенствованные алгоритмы машинного обучения, которые позволяют более точно распознавать не только слова, но и интонацию, эмоциональное состояние говорящего, что значительно повышает качество взаимодействия между человеком и машиной. Также подчеркнута широта сферы применения — от медицины и образования до бизнес-коммуникаций, что делает Voxtral Transcribe 2 перспективным инструментом для профессиональных пользователей.

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности