Anthropic выпустила Claude Sonnet 4.5 – модель, заточенную под агентскую работу, программирование, а также решение автономных задач длительностью до 30 часов. Предыдущая версия, Claude Opus 4, работала автономно максимум семь часов. Новая версия держит фокус на сложных многоступенчатых проектах, при этом не сбиваясь с курса, в чем и состоит ее безусловный плюс. Для разработчиков, которые строят автоматизацию или сложные системы генерации кода, она стала заметным шагом вперед в управлении инструментами и защите от атак.
Что изменилось в практическом смысле
Главным нововведением стали Claude Agent SDK. Anthropic открыла доступ к той же инфраструктуре, на которой работает их инструмент Claude Code. Разработчики получают готовые блоки для управления памятью агентов, координации подзадач, а также настройки прав доступа. Раньше приходилось изобретать велосипед, теперь есть проверенный фундамент. SDK работает не только для кодинга – подходит для широкого спектра задач, в которых не обойтись без длительного выполнения в автономном режиме.
Модель показала резкий рост на бенчмарках SWE-bench Verified, который измеряет способность решать реальные задачи программирования, и OSWorld, посредством которого тестируется работа с операционной системой и браузером. На OSWorld результат вырос с 42,2% до 61,4% за четыре месяца. В практическом смысле меньше ручных правок, когда просишь модель пройтись по репозиторию, исправить тесты или автоматизировать UI-взаимодействия. Расширение Claude for Chrome использует эти возможности напрямую: модель осуществляет навигацию по сайтам, заполняет таблицы, выполняет различные задачи непосредственно в браузере.
В приложениях Claude появилось выполнение кода и создание файлов прямо в диалоге – таблицы, презентации, документы генерируются на лету. В Claude Code добавили чекпоинты – одну из самых запрашиваемых функций. Теперь можно сохранять прогресс и откатываться к предыдущему состоянию мгновенно. Обновили интерфейс терминала, выпустили нативное расширение для VS Code. В API появились новые инструменты контекста и памяти, благодаря которым агенты работают дольше и справляются с большей сложностью.
Как показала практика, модель неплохо работает не только с кодом, но и с текстом на естественном языке:
Модель в принципе подходит и для работы на иностранных языках — мы протестировали ответы модели на немецком:
Длинное мышление и автономность
Расширенное мышление стало ключевой фичей для агентских сценариев. Модель получает большие бюджеты токенов рассуждений и систему чекпоинтов, что поддерживает рабочие процессы, которые не заканчиваются одним промптом. Для автоматизации и осуществления сложных исследовательских задач, для которых нужное состояние должно сохраняться между различными этапами работы, такая возможность является критически важной. Claude Sonnet 4.5 как раз и является той моделью, которая способна работать над одной задачей более 30 часов, хорошо сохраняя свою концентрацию на многоступенчатых проектах.
Где еще полезна модель
Помимо математики и кодинга, в которых Claude традиционно очень силен, Sonnet 4.5 хорош в задачах, требующих исследования и тщательности. Эксперты в финансах, праве, медицине и STEM-областях уже сейчас отметили на порядок улучшенные знания в специфичных доменах и рассуждения по сравнению со старыми моделями, включая Opus 4.1. Модель стала заменой для всех случаев использования – как через приложения, так и API или Claude Code. Цена осталась прежней: $3 за миллион входных токенов, $15 за миллион выходных.
Разработчики теперь получают доступ к подробным оценкам безопасности и надежности модели. Эти данные собраны в специальной «системной карте», где отражено, как модель ведет себя в разных ситуациях. Впервые в тестирование добавлены методы механистической интерпретируемости, которые помогают понять, почему нейросеть принимает те или иные решения, а не просто фиксировать результат.
Для качественной работы автономных AI-агентов важно не только то, что они умеют делать, но и насколько они стабильны и предсказуемы, ведь автономия не должна означать безусловное доверие. Поэтому разработчикам рекомендуется встроить шаги проверки и валидации, отслеживать использование вычислительных ресурсов и заранее учитывать возможные сбои в работе системы.
Минусы и предостережения
Бенчмарки показывают хорошие результаты, но реальная надежность зависит от качества промптов и проверки выходных данных. Ошибки классификаторов могут мешать работе в чувствительных областях, но их можно обходить, добавляя нужные процессы в белый список через команды аккаунта. Настройки длинного мышления требуют внимательного контроля за использованием вычислительных ресурсов и отслеживания возможных сбоев. Автономность агентов не делает систему полностью надежной, поэтому всегда стоит добавлять шаги проверки.
Выводы
Итак, Claude Sonnet 4.5 сосредоточен на агентах, программировании и практическом использовании для решения самых разных задач. Эта модель имеет немало плюсов; она лучше справляется с долгими задачами, хорошо координирует работу различных инструментов, а также предлагает улучшенные меры безопасности. Для проектов, в реализации которых требуются программные агенты, автоматические исправления или сложная генерация кода, Sonnet 4.5 станет важным шагом вперед: он лучше рассуждает, поддерживает длинные цепочки мышления и имеет SDK для создания агентской инфраструктуры.
При этом модель все еще требует аккуратного обращения. Ее автономность еще не говорит о том, что можно полностью полагаться на результат без проверки. Разработчикам стоит следить за расходом вычислительных ресурсов и контролировать качество выводов. Иными словами, Claude Sonnet 4.5 — уверенный шаг вперед, но не финальная точка. Модель уже впечатляет возможностями, однако ей по-прежнему нужна внимательная настройка и контроль, чтобы работать максимально надежно.
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.









Ого, а я даже не знал, что ИИ тоже нуждаются в некотором подобии сна. Оказывается, если нейросети дать немного «отдохнуть» от ввода новых данных, то процесс обучения потом идёт быстрее — ИИ усваивает новое, не забывая старого.
Но, очевидно, что требования к ИИ всё растут и необходимость в «отдыхе» людей уже не устраивает. Теперь им нужен ИИ, который бы работал вообще без передышки. Даже не знаю хорошо это или плохо. С одной стороны это очень похоже на жадность. С другой стороны, время — вещь дорогая, и её нужно экономить.
Что только не творят разработчики и ученые программ,мы движимся вперед.