Xiaomi MiMo. Нейросеть, которая учится работать, а не просто давать ответы

Xiaomi продолжает расширять свое AI-направление, и не так давно эта китайская компания выпустила обновленную нейросеть MiMo-V2-Pro. Шумихи вокруг события устраивать не стали, однако задача была поставлена вполне конкретная: нейросеть должна давать не просто «умные ответы», а выполнять рабочие сценарии четко и последовательно.

Смотрите видео на удобном для вас ресурсе!

Не универсальность, но логика

MiMo-V2-Pro представляет собой развитие предыдущей версии Xiaomi MiMo, которая уже выделялась своей архитектурой. Если у многих моделей ставка делается на масштаб и универсальность, здесь фокус смещен в сторону эффективности и выполнения прикладных задач. По результатам независимых оценок модель уже находится рядом с топовыми решениями и обгоняет ряд сильных конкурентов именно в этом аспекте.

Однако, разумеется, намного важнее поведение нейросети, а не цифры. В тестах, в которых нужно не просто ответить, а выполнить последовательность действий, MiMo ведет себя более «собранно». Она не пытается сразу выдать красивый результат, а идет по шагам. Пишет код, проверяет, исправляет, снова проверяет. Иногда ошибается, но логику процесса при этом не утрачивает. За счет этого модель неплохо ведет себя в инженерных сценариях, в задачах, связанных с автоматизацией процессов и т.д. Модель не «угадывает» ответ, а пытается его получить через действия. Разница кажется тонкой, но именно она отделяет демонстрацию от практического инструмента.

 

Пример работы

Архитектура, которая экономит ресурсы

В основе всей системы лежит довольно прагматичный подход. Держать в работе весь объем модели не стали; вместо этого используется схема с активными параметрами. Иными словами, в каждый отдельный момент времени задействуется только часть системы, но именно та, которая нужна для конкретной задачи.

В предыдущей версии было 309 миллиардов параметров с активными 15, и нагрузка сильно снижалась без ощутимой потери качества. В версии Pro идея сохранена, но доработана; теперь модель стала стабильнее и лучше держит сложные цепочки рассуждений, не упуская из виду существенные шаги. Работа без пробелов в логике уже порадовала многих пользователей, причем не только из Китая.

Отдельно стоит отметить механизм внимания. Вместо постоянного «просмотра» всего контекста модель работает с ним частями, периодически возвращаясь к общей картине. За счет этого работа модели ускорилась, а требования к памяти снизились. Теперь добавлены специальные механизмы, которые помогают не терять важную информацию на длинных дистанциях.

Есть и интересное решение с маршрутизацией. В подобных моделях часто возникает проблема, когда во время обучения и в реальной работе используются разные части системы, из-за чего поведение становится нестабильным. Здесь это зафиксировано: модель учится и работает с одними и теми же «экспертами», благодаря чему разброс в качестве снизился.

Текстовая генерация

Скорость и практическое применение

MiMo-V2-Pro не выглядит экспериментом ради эксперимента. Скорее, это модель, которую явно пытались сделать удобной для каждодневного использования. Она быстрее многих аналогов в своем классе и требует меньше ресурсов за счет оптимизации.

Дополнительный прирост дает механизм предсказания сразу нескольких токенов за один проход. Проще говоря, модель не «думает по одному слову», а старается заглянуть чуть вперед. За счет этого снижаются задержки, и работа модели становится более плавной, особенно в выполнении задач с большим количеством операций.

Ограничения, которые никуда не делись

При всех имеющихся плюсах модель все же никак нельзя назвать универсальной. Если дать нейросети точное задание, связанное с логикой и абстракцией, то вполне можно надеяться на приемлемый результат. Более сдержанно она ведет себя в задачах креативного плана. Тексты получаются нормальными, но без излишней выразительности. Слабостью назвать это нельзя; тут речь скорее о фокусе на логике.

Несмотря на заявленный большой контекст, архитектура с частичным вниманием иногда все же теряет точность на очень длинных дистанциях. А также, в отличие от предыдущей версии, веса модели пока не открыты, и работать с ней можно только через API, что ограничивает гибкость и возможности для глубокой настройки.

Наш вердикт

Итак, выводы команды Креатор Проджект относительно актуальной модели Xiaomi MiMo таковы. На сегодняшний день она выглядит как модель, у которой есть четкое понимание своей роли. Данная нейросеть не пытается быть лучшей во всем и не гонится за универсальностью. Вместо этого китайские разработчики сделали ставку на эффективное выполнение логических задач. Получился инструмент, который иногда уступает в креативе, однако выигрывает там, где нужно довести процесс до результата. И на фоне общего тренда это выглядит вполне логичным шагом: модели постепенно перестают быть собеседниками и становятся рабочими системами.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности