Microsoft AI выпустила три базовые модели ИИ для генерации текста, голоса и изображений

Microsoft AI, исследовательская лаборатория технологического гиганта, в четверг объявила о выпуске трёх базовых моделей ИИ, способных генерировать текст, голос и изображения.

Этот релиз свидетельствует о продолжающемся стремлении Microsoft наращивать собственный стек мультимодальных ИИ‑моделей — и конкурировать с другими ИИ‑лабораториями, — несмотря на сохраняющуюся привязку к OpenAI.

Смотрите видео на удобном для вас ресурсе!

MAI-Transcribe-1 расшифровывает речь на 25 разных языках в текст и, согласно пресс-релизу компании, работает в 2,5 раза быстрее, чем предложение Microsoft Azure Fast. MAI-Voice-1 — модель для генерации аудио. Эта голосовая модель позволяет пользователям создавать 60 секунд аудио за одну секунду и даёт возможность создать собственный голос. MAI-Image-2 — модель для генерации видео.

MAI-Image-2 изначально была выпущена в MAI Playground — новом ПО для тестирования больших языковых моделей — 19 марта. Теперь все три модели выпускаются на Microsoft Foundry, а модели для транскрибации и голоса также доступны в MAI Playground.

Модели разработаны командой Microsoft MAI Superintelligence — исследовательской командой в области ИИ под руководством Мустафы Сулеймана, генерального директора Microsoft AI, — которая была сформирована и объявлена в ноябре 2025 года.

«В Microsoft AI мы создаём Humanist AI. У нас есть чёткое видение при создании наших моделей ИИ — ставить человека в центр, оптимизировать под то, как люди действительно общаются, и обучать для практического использования», — написал Сулейман в публикации в блоге. «В ближайшее время вы увидите от нас больше моделей — в Foundry и непосредственно в продуктах и пользовательских сценариях Microsoft».

На всё более переполненном рынке LLM MAI надеется, что преимуществом этих моделей станет то, что они дешевле аналогов от Google и OpenAI, говорится в публикации в блоге компании.

MAI-Transcribe-1 начинается с $0,36 за час. MAI-Voice-1 — от $22 за 1 миллион символов, а MAI-Image-2 — от $5 за 1 миллион токенов для текстового ввода и $33 за 1 миллион токенов для вывода изображений.

Несмотря на выпуск собственных моделей, Сулейман в интервью VentureBeat подтвердил приверженность Microsoft партнёрству с OpenAI — хотя недавний пересмотр условий этого партнёрства позволил Microsoft по-настоящему заняться исследованиями в области суперинтеллекта, рассказал Сулейман The Verge.

Microsoft инвестировала в исследовательскую лабораторию более $13 млрд и в рамках многолетнего партнёрства размещает её модели в различных своих продуктах. Аналогичную позицию Microsoft занимает и в отношении чипов: компания и производит собственные, и покупает у внешних поставщиков.

Источник: TechCrunch

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

Один комментарий к “Microsoft AI выпустила три базовые модели ИИ для генерации текста, голоса и изображений

  1. Особенно интересно, как эти модели смогут адаптироваться под разные задачи и улучшить качество создаваемого контента. В целом, это очередной пример активного развития технологий искусственного интеллекта, который обещает множество полезных приложений.

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности