Модели, создаваемые компанией Anthropic, неизменно приковывают внимание во всем мире; каждое нововведение зачастую не просто составляет достойную конкуренцию действующим гигантам индустрии, но нередко и обгоняет их на шаг-другой. На сей раз Anthropic также представили обновления своих моделей. Ходят слухи о том, что Claude Opus 4 и Claude Sonnet 4 настолько продвинуты, что имеется риск обретения ими сознания. Какими же новыми особенностями обладают данные нейросети, и что нового предлагает детище Дарио и Даниэлы Амодей на сей раз? Попробуем разобраться детальнее.
Что представляют собой новые модели Claude
Итак, Opus 4 позиционируется в качестве самой мощной модели для программирования в мире, а Sonnet 4 — как значительное улучшение предыдущей версии 3.7 с сохранением производительности и эффективности. В обеих моделях основной акцент делается на программировании и работе с агентами. Claude Opus 4 показывает результат 72,5% на бенчмарке SWE-bench, который тестирует способность моделей решать реальные задачи разработки программного обеспечения. Это действительно впечатляющий результат, особенно на фоне того, что большинство моделей с трудом преодолевают планку в 30-40%.
Обе модели получили гибридную архитектуру с двумя режимами работы: быстрые ответы для простых задач и расширенное мышление для сложных проблем, требующих глубокого анализа. Расширенное мышление позволяет модели «размышлять» перед ответом, анализируя проблему пошагово, что теоретически должно улучшить качество решений. Интересным нововведением стала возможность использования дополнительных инструментов во время расширенного мышления. Модель может переключаться между анализом проблемы и поиском дополнительной информации в интернете или выполнением кода. Данная особенность приближает поведение ИИ к естественному процессу решения сложных задач человеком.
Пример генерации текста можно увидеть ниже; мы попросили модель создать для нас маркетинговую статью:
Компания также представила Claude Code — специализированный инструмент для разработчиков, который интегрируется с популярными IDE и может работать автономно в фоновом режиме. Это попытка создать полноценного ИИ-помощника для программистов, который может не только генерировать код, но и самостоятельно выполнять задачи разработки.
Еще одна опция, заслуживающая внимания — Learn. Она позволяет провести критический анализ информации, объясняет сложные термины простыми словами, создает флэш-карточки, а также выполняет другие функции, связанные с процессом обучения. Для примера мы попросили ИИ сгенерировать карточки для изучения слов на английском; процесс их создания выглядел так:
В результате нейросеть создала полноценные флэш-карточки, при помощи которых можно учить заданные фразы:
Технические характеристики и реальная производительность
Помимо лидерства в SWE-bench, модель Claude Opus 4 показывает 43,2% на Terminal-bench — тесте, оценивающем способность работы с командной строкой. В математических задачах уровня старшей школы результат составляет 90%, что значительно превышает показатели большинства конкурентов.
Однако самым интересным заявлением является способность модели работать автономно в течение нескольких часов. Компания приводит пример семичасовой работы над рефакторингом открытого проекта без вмешательства человека. Если это действительно так, то это качественный скачок в развитии ИИ-агентов, поскольку предыдущие модели быстро теряли фокус на длительных задачах.
Claude Sonnet 4, позиционируемая в качестве более сбалансированной модели, тоже показывает весьма любопытные результаты. В некоторых задачах она даже превосходит старшую сестру — например, на SWE-bench результат составляет 80,2% против 79,4% у Opus 4. Иными словами, для программирования размер модели не всегда является определяющим фактором, и оптимизация архитектуры может давать неожиданные преимущества.
Другие преимущества
Новые возможности памяти выглядят особенно интригующе. Модели могут создавать и поддерживать файлы памяти для хранения ключевой информации между сессиями. Anthropic приводит пример создания «навигационного гида» во время игры в Pokemon — модель самостоятельно ведет записи о пройденных локациях и найденных предметах.
Доступность моделей через различные платформы — Anthropic API, Amazon Bedrock и Google Cloud Vertex AI — упрощает интеграцию в существующие системы. Данную особенность стоит взять на заметку корпоративным пользователям, которые уже используют инфраструктуру этих провайдеров.
Интересным решением стало введение режима разработчика для пользователей, которым нужен полный доступ к цепочкам мышления модели. Обычно процесс мышления сжимается для экономии места, но для продвинутой работы с промптами может потребоваться полная информация о том, как модель пришла к ответу.
Сравнение с конкурентами показывает, что Anthropic делает ставку на качество и специализацию, а не на универсальность. Claude 4 может не превосходить GPT-4 или Claude во всех областях, но в программировании и работе с агентами компания явно стремится к лидерству. Время покажет, насколько успешной окажется эта стратегия в условиях быстро развивающегося рынка ИИ-моделей.
Развитие моделей Claude Opus 4 и Sonnet 4 показывает, что в области ИИ происходит как постепенное улучшение существующих технологий, так и появление новых подходов, которые могут значительно изменить способы их использования и понимания.
Мне кажется что можно утверждать, что Claude Opus 4 и Sonnet 4 представляют собой синтез эволюционных изменений и революционных прорывов в области ИИ. Так как они продолжают демонстрировать потенциал технологий и открывают новые горизонты для их применения, что делает их важными игроками на текущем этапе развития искусственного интеллекта.
Как будто модель взяла и перепрыгнула через головы конкурентов. Anthropic явно нащупали, но где граница между инновацией и хайпом. Жду проверки их результатов независимыми тестами, тогда и выйдет, революция это или очередной эволюционный трюк.
. Время покажет, насколько успешной окажется эта стратегия в условиях быстро развивающегося рынка ИИ-моделей.Все таки человечество движется вперед.
Я совсем не понимаю, как это всё работает, но иногда пугает, насколько быстро всё развивается. Только привыкнешь к одному, а уже выходит какой-то Claude Opus 4. Надеюсь, люди всё ещё управляют этими системами, а не наоборот. Вроде бы интересно, но всё равно немного тревожно.
Claude 4 — это эволюция в плане точности, безопасности и работы с кодом, но революция в части автономности, гибридного мышления и доступности. Эти модели не просто улучшают существующие решения, но создают новые возможности для ИИ-агентов, разработчиков и бизнеса. Однако их успех будет зависеть от преодоления ограничений, таких как высокая стоимость Opus 4 и риск «галлюцинаций» при сложных задачах.
Очень интересно наблюдать за тем, как Claude Opus 4 и Sonnet 4 пытаются расширить границы ИИ‑опыта. Ощущается отток в сторону мультимодальности, но вызывает вопрос — как обе модели справляются с этикой и управлением генерацией «галлюцинаций»? Хотелось бы узнать, как вы оцениваете их практическую применимость и различия — что показалось наиболее впечатляющим?