GLM-5. Модель, которая работает, а не просто отвечает

Иногда развитие технологий напоминает историю про незадачливого менеджера, который однажды решил, что «и так работает нормально», и пропустил тот момент, когда весь окружающий мир плавно переключился на новый уровень. С языковыми моделями происходит нечто похожее: пока одни обсуждают, умеет ли модель шутить или писать письма, другие уже строят на их базе сложные системы, в которых вес имеют не слова, а действия и результат. Такова модель GLM-5, ставшая надежным инструментом, работающим на дистанции, а не на коротком забеге.

Смотрите видео на удобном для вас ресурсе!

Модель, которая перестала быть просто «умной»

Если смотреть на сухие цифры, разница между поколениями выглядит как очередное «стало больше». Но за этим «больше» скрывается достаточно весомый сдвиг в подходе. Архитектура GLM-5 выросла почти вдвое по общему числу параметров – с 355 до 744 миллиардов, при этом активная часть увеличилась гораздо скромнее. Тут речь идет не о гонке за цифрами ради заголовков, а о попытке перераспределить вычисления так, чтобы модель тратила ресурсы там, где это действительно нужно.

С обучающими данными похожая история. Объем корпуса увеличился до 28,5 триллионов токенов, но важнее не сам масштаб, а разнообразие сигналов, на которых модель учится принимать решения. В результате модель выглядит менее «реактивной» и чуть более осмысленной в выполнении длинных задач, состоящих из цепочек действий.

Но на одном предобучении история не заканчивается. Существенную роль играет этап дообучения, в котором используется асинхронная инфраструктура обучения с подкреплением. Благодаря такому подходу разработчики получили возможность ускорить итерации и чаще корректировать поведение модели без необходимости в затяжных циклах обучения. Удержание логики процесса в течение длительного времени стало возможным в том числе и за счет оптимизации.

Интересный момент связан с вниманием (в прямом и техническом смысле). Экономика работы модели изменилась: в случае GLM-5 длинный контекст больше не роскошь, за которую приходится платить слишком высокую цену. Это тот случай, когда новые инженерные решения сказываются именно на практическом применении модели, и в особенности в тех случаях, когда выполнение задачи не укладывается в пару экранов текста.

Сравнение GLM-5 с другими моделями на ключевых бенчмарках. Источник: https://blog.siray.ai/glm-5/

От диалога к полноценной работе

Есть ощущение, что индустрия постепенно устала от формата «задай вопрос и получи ответ». GLM-5 явно движется в сторону другой парадигмы: модель должна не просто говорить, а доводить задачу до закономерного результата. И это заметно даже в том, как она обращается с документами. Модель способна взять текстовое описание и превратить его в готовый файл (к примеру, отчет или таблицу). Не черновик, а именно законченный артефакт, который можно открыть и использовать. В этом месте модель начинает напоминать не собеседника, а младшего коллегу, которому можно делегировать кусок работы. Конечно, с оговоркой, что проверка все еще остается на человеке.

Отдельный акцент сделан на агентных сценариях. Модель рассчитана на длинные цепочки действий, в которых нейросети нужно не только выполнить шаг, но и помнить, зачем он вообще был нужен. Поэтому модель будет в особенности эффективной в разработке и системном проектировании, ведь здесь ошибка на раннем этапе может «аукнуться» через десятки шагов.

При выполнении теста Artificial Analysis Intelligence Index GLM-5 использует меньше выходных токенов, чем GLM-4.7. Источник: https://artificialanalysis.ai/articles/glm-5-everything-you-need-to-know

Длинная дистанция и странный тест с автоматом

Чтобы понять, насколько модель умеет мыслить на горизонте, разработчики используют довольно любопытные бенчмарки. Один из них моделирует работу вендингового бизнеса на протяжении года. На первый взгляд, похоже на игру, но на деле это проверка способности планировать и не терять нить происходящего. GLM-5 здесь показала результат, который приближается к более дорогим и закрытым решениям. То есть, модель не просто принимает локальные решения, а пытается удерживать курс.

Похожая картина наблюдается и в других тестах: заметный рост эффективности в решении задач, связанных с программированием и комплексными системами. Разрыв с предыдущими версиями сокращается не за счет одного «вау-эффекта», а за счет множества мелких улучшений, которые в сумме дают более стабильное поведение.

Интересно, что за всем этим стоит не только масштаб, но и изменения в обучении после предтренировки. Усиленное обучение традиционно считается узким местом – дорого, долго и не всегда предсказуемо. Здесь используется асинхронная инфраструктура, которая ускоряет процесс и позволяет чаще «подкручивать» модель. В результате она становится менее застывшей и чуть более адаптивной.

Заключение

Эксперты Креатор Проджект подчеркивают: модель GLM-5 выглядит аккуратным, однако уверенным шагом в сторону моделей, умеющих в действительности работать, а не просто автоматически предоставлять ответы. Это нейросеть без лишнего пафоса, с понятными компромиссами, хотя и со все еще заметными ограничениями.

И, пожалуй, в этом есть определенная честность: вместо попытки казаться универсальным интеллектом модель постепенно осваивает роль инструмента, который полезен не в каждом разговоре, но вполне уместен там, где задача не заканчивается на первом ответе.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности