Anthropic выпустила Claude Sonnet 4.5 – модель, заточенную под агентскую работу, программирование, а также решение автономных задач длительностью до 30 часов. Предыдущая версия, Claude Opus 4, работала автономно максимум семь часов. Новая версия держит фокус на сложных многоступенчатых проектах, при этом не сбиваясь с курса, в чем и состоит ее безусловный плюс. Для разработчиков, которые строят автоматизацию или сложные системы генерации кода, она стала заметным шагом вперед в управлении инструментами и защите от атак.
Что изменилось в практическом смысле
Главным нововведением стали Claude Agent SDK. Anthropic открыла доступ к той же инфраструктуре, на которой работает их инструмент Claude Code. Разработчики получают готовые блоки для управления памятью агентов, координации подзадач, а также настройки прав доступа. Раньше приходилось изобретать велосипед, теперь есть проверенный фундамент. SDK работает не только для кодинга – подходит для широкого спектра задач, в которых не обойтись без длительного выполнения в автономном режиме.
Модель показала резкий рост на бенчмарках SWE-bench Verified, который измеряет способность решать реальные задачи программирования, и OSWorld, посредством которого тестируется работа с операционной системой и браузером. На OSWorld результат вырос с 42,2% до 61,4% за четыре месяца. В практическом смысле меньше ручных правок, когда просишь модель пройтись по репозиторию, исправить тесты или автоматизировать UI-взаимодействия. Расширение Claude for Chrome использует эти возможности напрямую: модель осуществляет навигацию по сайтам, заполняет таблицы, выполняет различные задачи непосредственно в браузере.
В приложениях Claude появилось выполнение кода и создание файлов прямо в диалоге – таблицы, презентации, документы генерируются на лету. В Claude Code добавили чекпоинты – одну из самых запрашиваемых функций. Теперь можно сохранять прогресс и откатываться к предыдущему состоянию мгновенно. Обновили интерфейс терминала, выпустили нативное расширение для VS Code. В API появились новые инструменты контекста и памяти, благодаря которым агенты работают дольше и справляются с большей сложностью.
Как показала практика, модель неплохо работает не только с кодом, но и с текстом на естественном языке:
Модель в принципе подходит и для работы на иностранных языках — мы протестировали ответы модели на немецком:
Длинное мышление и автономность
Расширенное мышление стало ключевой фичей для агентских сценариев. Модель получает большие бюджеты токенов рассуждений и систему чекпоинтов, что поддерживает рабочие процессы, которые не заканчиваются одним промптом. Для автоматизации и осуществления сложных исследовательских задач, для которых нужное состояние должно сохраняться между различными этапами работы, такая возможность является критически важной. Claude Sonnet 4.5 как раз и является той моделью, которая способна работать над одной задачей более 30 часов, хорошо сохраняя свою концентрацию на многоступенчатых проектах.
Где еще полезна модель
Помимо математики и кодинга, в которых Claude традиционно очень силен, Sonnet 4.5 хорош в задачах, требующих исследования и тщательности. Эксперты в финансах, праве, медицине и STEM-областях уже сейчас отметили на порядок улучшенные знания в специфичных доменах и рассуждения по сравнению со старыми моделями, включая Opus 4.1. Модель стала заменой для всех случаев использования – как через приложения, так и API или Claude Code. Цена осталась прежней: $3 за миллион входных токенов, $15 за миллион выходных.
Разработчики теперь получают доступ к подробным оценкам безопасности и надежности модели. Эти данные собраны в специальной «системной карте», где отражено, как модель ведет себя в разных ситуациях. Впервые в тестирование добавлены методы механистической интерпретируемости, которые помогают понять, почему нейросеть принимает те или иные решения, а не просто фиксировать результат.
Для качественной работы автономных AI-агентов важно не только то, что они умеют делать, но и насколько они стабильны и предсказуемы, ведь автономия не должна означать безусловное доверие. Поэтому разработчикам рекомендуется встроить шаги проверки и валидации, отслеживать использование вычислительных ресурсов и заранее учитывать возможные сбои в работе системы.
Минусы и предостережения
Бенчмарки показывают хорошие результаты, но реальная надежность зависит от качества промптов и проверки выходных данных. Ошибки классификаторов могут мешать работе в чувствительных областях, но их можно обходить, добавляя нужные процессы в белый список через команды аккаунта. Настройки длинного мышления требуют внимательного контроля за использованием вычислительных ресурсов и отслеживания возможных сбоев. Автономность агентов не делает систему полностью надежной, поэтому всегда стоит добавлять шаги проверки.
Выводы
Итак, Claude Sonnet 4.5 сосредоточен на агентах, программировании и практическом использовании для решения самых разных задач. Эта модель имеет немало плюсов; она лучше справляется с долгими задачами, хорошо координирует работу различных инструментов, а также предлагает улучшенные меры безопасности. Для проектов, в реализации которых требуются программные агенты, автоматические исправления или сложная генерация кода, Sonnet 4.5 станет важным шагом вперед: он лучше рассуждает, поддерживает длинные цепочки мышления и имеет SDK для создания агентской инфраструктуры.
При этом модель все еще требует аккуратного обращения. Ее автономность еще не говорит о том, что можно полностью полагаться на результат без проверки. Разработчикам стоит следить за расходом вычислительных ресурсов и контролировать качество выводов. Иными словами, Claude Sonnet 4.5 — уверенный шаг вперед, но не финальная точка. Модель уже впечатляет возможностями, однако ей по-прежнему нужна внимательная настройка и контроль, чтобы работать максимально надежно.
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.










Ого, а я даже не знал, что ИИ тоже нуждаются в некотором подобии сна. Оказывается, если нейросети дать немного «отдохнуть» от ввода новых данных, то процесс обучения потом идёт быстрее — ИИ усваивает новое, не забывая старого.
Но, очевидно, что требования к ИИ всё растут и необходимость в «отдыхе» людей уже не устраивает. Теперь им нужен ИИ, который бы работал вообще без передышки. Даже не знаю хорошо это или плохо. С одной стороны это очень похоже на жадность. С другой стороны, время — вещь дорогая, и её нужно экономить.
Что только не творят разработчики и ученые программ,мы движимся вперед.
Это метафора, которую использует Anthropic: модель способна работать более 30 часов непрерывно над сложной задачей, не теряя логики, контекста и последовательности.
Невероятно, как Sonnet 4.5 справляется с такими нагрузками! 30 часов без сна — отличное доказательство стабильности и оптимизации новой модели. Кажется, технологии ИИ выходят на совершенно новый уровень производительности.
Sonnet 4.5 впечатляет! Поддерживать высокое качество работы в течение 30 часов без перерыва — это серьёзный показатель эффективности архитектуры и продуманности алгоритмов. Интересно, как долго она сможет сохранять такую стабильность в реальных условиях.
То ли ещё будет. Ведь это только начало развития и усовершенствования ИИ! В удивительное время мы сейчас живем!
Про 30 часов автономной работы сначала думал скептически, но потом вспомнил, как сам застревал на задачах, где контекст ускользал уже через пару шагов. Но ощущение, что ты больше не таскаешь модель на поводке, а можешь дать ей задачу и отойти, это новое качество
Помимо математики и кодинга, в которых Claude традиционно очень силен, Sonnet 4.5 хорош в задачах, требующих исследования и тщательности. Эксперты в финансах, праве, медицине и STEM-областях уже сейчас отметили на порядок улучшенные знания в специфичных доменах
Все усовершентсвуется ,скоро не останется тем для развития.
Не над чем будет работать.
ИИ развивается семимильными шагами:) Sonnet 4.5 — это мощное устройство с впечатляющим временем автономной работы, которое подойдёт для активного использования в различных условиях. Несмотря на некоторые недостатки, такие как нагрев и ограничения при низком заряде, его плюсы перевешивают. Если вам важно длительное время работы без подзарядки и вы готовы учесть указанные нюансы — смело выбирайте Sonnet 4.5.
30 часов автономной работы — это очень круто, да к тому же и способность решать более разнообразные задачи тоже впечатляет. Конечно при работе с новой версией надо глубже вникать в тему, а для этого нужно больше времени. Но, думаю, в будущем это окупится с лихвой.
Интересно, как Sonnet 4.5 справляется с такими нагрузками! 30 часов без сна — впечатляющий показатель, если при этом сохраняется стабильность и качество работы. Похоже, ИИ действительно выходит на новый уровень выносливости.
Все так развивается что они будут работать 24 на 7 и никаких перерывов не нужно будет разве что на обслуживание или обновление .
Разве не удивительно, как это делает ее универсальным инструментом для различных областей? Кто бы мог подумать, что одно решение способно настолько преобразить наши подходы? От автоматизации рутинных процессов до создания сложных систем — где еще можно найти столь многогранное применение? Разве не вдохновляет нас это разнообразие возможностей? И как не восхищаться тем, как технологии продолжают расширять границы нашего понимания и творчества?
В практическом смысле заинтересовала возможность автоматизировать UI-взаимодействия с помощью расширения Claude for Chrome: навигация по сайтам, заполнение таблиц, выполнение различных задач непосредственно в браузере. Вот они, дополнительная пара глаз и пара рук, которых всегда не хватает! И главное можно поручить работу на больший интервал времени, ИИ-модель дольше не уйдет в «галлюцинации».