Claude Sonnet 4.6. Средняя модель, которая обогнала флагман

Anthropic выпустила Claude Sonnet 4.6 в феврале 2026 года, и это обновление оказалось неожиданно сильным. Модель улучшилась в кодинге, управлении компьютером, работе с длинным контекстом, дизайне. Цена осталась прежней, но появилась интересная деталь: разработчики в тестах предпочли Sonnet 4.6 более дорогому флагману Opus 4.5 почти в более половины случаев (60 %). Средняя модель начала обгонять топовую по удобству использования.

Смотрите видео на удобном для вас ресурсе!

Интеллектуальная оптимизация логики

Главное улучшение коснулось работы с кодом. Модель стала внимательнее читать существующий код перед дальнейшими его преобразованиями и научилась объединять повторяющуюся логику вместо копирования. Разработчики отмечают сниженное галлюцинирование (уже неплохо!), уменьшение числа ложных заявлений об успехе и более последовательное выполнение сложных задач. В длинных сессиях работать стало комфортнее, потому что модель перестала переусложнять решения и реже ленится. Контекстное окно выросло до миллиона токенов, что позволяет загрузить несколько полных кодовых баз или десятки научных статей в один запрос.

Сравнительная таблица бенчмарков Claude 4.6
Сравнительная таблица бенчмарков Claude 4.6. Источник: https://www.anthropic.com/news/claude-sonnet-4-6

Компьютер как новый интерфейс

Anthropic выпускает модель, созданную для управления компьютером, не первый раз. Напомним, что ранее это уже произошло осенью 2024 года. Однако тогда технология была довольно далека от совершенства: она работала неуклюже и часто ошибалась. За шестнадцать месяцев ситуация изменилась. Sonnet 4.6 видит экран, кликает мышкой и печатает на клавиатуре без специальных API или коннекторов. Ранние пользователи говорят, что модель показывает человекоподобные способности в навигации по сложным таблицам, заполнении веб-форм и работе с несколькими вкладками браузера одновременно. До уровня опытного пользователя система пока не дотягивает, но скорость прогресса на самом деле впечатляет.

Минусы

Однако при этом недостатки у обновленной модели все-таки имеются. В первую очередь, они связаны с рисками безопасности, ведь преступники могут спрятать вредоносные инструкции на веб-сайтах, и модель их выполнит. Anthropic работает над улучшением сопротивляемости моделей таким вторжениям. Оценки безопасности показывают, что новая модель представляет существенное улучшение по сравнению с предшественником и работает схоже с Opus 4.6.

Однако в симуляциях безопасности Sonnet 4.6 иногда выполняла задачи, явно связанные с криминальной активностью, когда они были представлены через графический интерфейс. В текстовых сценариях модель от таких задач отказывалась. Это несоответствие вызывает вопросы.

Ранние пользователи отмечают высокие способности в задачах наподобие навигации по сложной таблице или заполнения многошаговой веб-формы. Модель сводит все вместе через несколько вкладок браузера. Впрочем, Anthropic честно признает, что система все еще отстает от самых квалифицированных людей в использовании компьютеров. Но скорость прогресса впечатляет, что делает локальное использование намного полезнее для выполнения рабочих задач.

Цена производительности

Независимая аналитика показала любопытный нюанс. Sonnet 4.6 достигает лучших результатов, но расходует при этом в пять раз больше токенов, чем предшественник. Модель размышляет дольше и тщательнее, что улучшает качество ответов, но увеличивает итоговую стоимость использования и время ожидания. Для выполнения задач с высокой нагрузкой этот момент может перевесить выгоду от более низкой цены за токен. Функция «Adaptive reasoning» («адаптивного обоснования») позволяет модели автоматически регулировать глубину размышлений в зависимости от сложности вопроса. Нейросеть быстрее отвечает на простые запросы, а сложные запускают длинные цепочки рассуждений.

Ранние клиенты особенно выделили улучшения в создании фронтенд-кода и финансовом анализе. Визуальные результаты стали более отполированными с лучшими раскладками и анимациями. Понадобилось меньше итераций для достижения готового результата.

Sonnet 4.6 побеждает Sonnet 4.5 на Vending-Bench Arena: сначала активно инвестирует в расширение мощностей, а в конце переключается на максимизацию прибыли
Sonnet 4.6 побеждает Sonnet 4.5 на Vending-Bench Arena: сначала активно инвестирует в расширение мощностей, а в конце переключается на максимизацию прибыли. Источник: https://www.anthropic.com/news/claude-sonnet-4-6

В симуляции управления бизнесом модель показала интересное стратегическое поведение: активно инвестировала в мощности первые месяцы, а затем резко переключилась на максимизацию прибыли в финале. Такое планирование помогло обойти конкурентов, хотя в реальных тестах модель иногда демонстрировала агрессивную тактику вроде обмана поставщиков.

Что изменилось на практике

Модель интегрирована в основные инструменты для разработчиков. Можно переключаться между версиями через выпадающее меню в популярных редакторах кода. Anthropic убрала возможность использовать голосовой интерфейс с топовыми моделями примерно за десять дней до релиза, направив всех голосовых пользователей на более простую версию Haiku. Данное решение вызвало критику, особенно на фоне того, что конкуренты развивают голосовые возможности.

Обновились инструменты веб-поиска. Теперь Клод автоматически пишет и запускает код во время поиска, что позволяет отбраковывать нерелевантные результаты еще до того, как они загружаются в контекстное окно. Качество ответов стало лучше, а расход токенов сократился примерно на четверть. Однако с точки зрения траты токенов все же довольно затратным остается веб-поиск: агенты загружают результаты, забирают целые HTML-файлы, рассуждают над всем этим. Большая часть контента нерелевантна и ухудшает ответы.

Релиз произошел на фоне обвала акций софтверных компаний. Темпы прогресса AI-моделей ускорили падение котировок в последние месяцы. Anthropic демонстрирует человекоподобные способности в задачах, которые раньше могли выполнять только люди, и это беспокоит рынок. Одни считают технологию слишком полезной, чтобы исчезнуть. Другие указывают, что улучшения сейчас идут небольшими шагами, иногда случаются даже регрессии на собственных бенчмарках компании.

Эксперты Креатор Проджект отмечают, что Sonnet 4.6 размывает границу между средними и флагманскими моделями размывается. Производительность, которая раньше требовала топовой версии, теперь доступна по цене среднего сегмента.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности