MAI-Transcribe-1. Microsoft решила, что больше не хочет зависеть от чужих ушей

Пока весь мир привык считать, что функцией голосового распознавания можно воспользоваться либо при помощи Whisper от OpenAI, либо посредством чего-то менее интересного, компания Microsoft тихо собрала собственную команду и выпустила неожиданный релиз. 2 апреля 2026 года команда MAI (Microsoft AI) Superintelligence представила сразу три собственные модели: для создания визуальных материалов, генерации голоса и распознавания речи. Последняя называется MAI-Transcribe-1, и именно о ней пойдет речь. Если коротко, Microsoft больше не хочет отдавать транскрибацию на откуп OpenAI. И, судя по цифрам, делает это не без оснований.

Смотрите видео на удобном для вас ресурсе!

Откуда вообще взялась эта модель

Для начала стоит вспомнить о том, что еще в ноябре 2025 года британский предприниматель и директор Microsoft AI Мустафа Сулейман собрал внутри Microsoft отдельную команду суперинтеллекта, которая была названа MAI. Буквально через несколько месяцев эта команда выдала первые плоды. MAI-Transcribe-1 представляет собой специализированную модель «одной задачи»: конвертировать звук в текст. Никакой многозадачности, никакого «и швец, и жнец». Только транскрибация текста, но зато на максимальном уровне.

Архитектурно модель построена по принципу трансформер-энкодер-декодер. Она похожа на Whisper, но с переработанным подходом к длинным аудиофайлам и переходам между говорящими, что делает модель чрезвычайно удобной в практическом применении. Часовой подкаст или запись совещания не превращаются в кашу из слов в середине файла. Модель уверенно держит контекст на протяжении всей записи.

На момент релиза MAI-Transcribe-1 поддерживала 25 языков, причем в их число вошли как популярные английский и испанский, так и арабский, вьетнамский, тайский, хинди и прочие. При этом язык не нужно указывать вручную. Модель определяет его автоматически.

Что с точностью и скоростью

Главной метрикой в сфере распознавания речи считается Word Error Rate, WER, то есть процент слов, которые модель транскрибировала неверно. Чем ниже этот показатель, тем лучше. На бенчмарке FLEURS  обозреваемая модель демонстрирует WER около 3,9 % против 7,6 % у Whisper Large. Как показывают цифры, по этому показателю модель действительно обходит конкурентов.

Скорость работы впечатлила многих юзеров. Батчевая транскрипция работает в 2,5 раза быстрее, чем предыдущий флагман Azure Fast. Час аудио модель переваривает примерно за 53 секунды. Благодаря высокой производительности MAI-Transcribe-1 может эффективно использоваться в масштабных системах обработки аудио, в которых счет идет на тысячи часов записей. Модель позволяет компаниям снизить затраты и ускорить выполнение задач.

Про деньги, кстати, тоже есть что сказать: цена зафиксирована на уровне $ 0,36 за час аудио. Так что многие пользователи уже оценили этот аспект – расходы на транскрибацию остаются сравнительно невысокими.

Отдельно стоит упомянуть работу в сложных акустических условиях. В реальной жизни аудио редко бывает чистым: фоновый шум в кафе, плохое соединение на звонке, наложение голосов в переговорной. MAI-Transcribe-1 проектировалась именно с учетом этих особенностей – не только под стерильные студийные записи. Демо на официальном сайте показывают транскрибацию в условиях кафе, офиса с фоновым шумом. Модель способна выполнять свою работу на концерте, и результаты выглядят убедительно.

Где доступна модель

Microsoft открыла доступ к модели MAI-Transcribe-1 через Azure AI Foundry. Модель поддерживает популярные форматы файлов: MP3, WAV и FLAC. Также воспользоваться нейросетью можно через MAI Playground, где юзеры могут протестировать возможности модели без интеграции через API.

Впрочем, если нет желания транскрибировать файлы при помощи англоязычного интерфейса, всегда можно воспользоваться и более доступными вариантами. Например, опция транскрибации также имеется на портале Креатор Проджект. Портал является русскоязычным, что значительно облегчает взаимодействие с нейросетями.

MAI-Transcribe-1 достаточно проста во взаимодействии. Нужно загрузить аудиофайл и отправить его на обработку. Модель автоматически распознает речь и вернет готовую текстовую расшифровку. Максимальный размер файла составляет 300 МБ, чего обычно хватает для интервью, лекций, встреч и других длинных записей.

Выводы

Microsoft долгое время оставалась одним из ключевых партнеров OpenAI, однако появление MAI-Transcribe-1 показывает, что компания все активнее развивает собственную экосистему искусственного интеллекта. Причем речь идет не о попытке создать очередную универсальную модель на все случаи жизни, а о ставке на специализированные решения, которые способны превосходить конкурентов в конкретных задачах. Транскрибация речи сегодня стала одной из самых востребованных функций в корпоративной среде, поэтому неудивительно, что именно это направление стало одним из первых проектов команды MAI.

Судя по опубликованным характеристикам, Microsoft удалось создать продукт, который сочетает высокую точность обработки и относительно низкую стоимость использования. Если заявленные показатели подтвердятся в реальных сценариях массового применения, MAI-Transcribe-1 вполне может стать новым ориентиром для рынка распознавания речи. А для самой Microsoft эта модель может оказаться еще одним шагом к снижению зависимости от сторонних ИИ-разработок и укреплению собственных позиций в быстро растущей индустрии искусственного интеллекта.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности