Anthropic анонсировала обновления в своем портфеле ИИ, включая усовершенствованную модель Claude 3.5 Sonnet и новую Claude 3.5 Haiku, а также функцию «управления компьютером», которая находится на стадии публичного бета-тестирования.
Обновленная модель Claude 3.5 Sonnet демонстрирует значительные улучшения по всем параметрам, особенно заметны достижения в области программирования. Модель достигла впечатляющего результата в 49,0% на бенчмарке SWE-bench Verified, превзойдя все публично доступные модели, включая разработки OpenAI и специализированные системы программирования.
В новаторском шаге Anthropic представила функциональность для использования компьютеров, которая позволяет модели Claude взаимодействовать с компьютерами так же, как люди: просматривать экраны, управлять курсором, кликать и вводить текст. Эта возможность, которая сейчас находится на стадии публичного бета-тестирования, делает Claude 3.5 Sonnet первой ИИ-моделью, предлагающей такую функциональность.
Несколько крупных технологических компаний уже начали внедрять эти новые возможности.
«Обновленная Claude 3.5 Sonnet представляет собой значительный шаг вперед для программирования на основе ИИ», — сообщили в GitLab, отметив повышение точности логических рассуждений на 10% в различных сценариях использования без увеличения задержек.
Новая модель Claude 3.5 Haiku, которая будет выпущена в конце этого месяца, сопоставима по производительности с предыдущей моделью Claude 3 Opus, оставаясь при этом рентабельной и быстрой. Она достигла результата 40,6% на SWE-bench Verified, превзойдя многие конкурентные модели, включая оригинальную Claude 3.5 Sonnet и GPT-4o.

Что касается возможностей управления компьютером, Anthropic подошла к этому вопросу осмотрительно, признавая текущие ограничения, но подчеркивая высокий потенциал. На бенчмарке OSWorld, оценивающем навигацию по интерфейсам компьютеров, Claude 3.5 Sonnet набрала 14,9% в тестах с использованием только скриншотов, что значительно превышает показатель ближайшей аналогичной системы в 7,8%.
Все нововведения прошли тщательные проверки безопасности. Тестирование перед развертыванием проводилось в сотрудничестве с институтами безопасности ИИ США и Великобритании. Anthropic заявляет, что стандарт ASL-2 остается подходящим для этих моделей.
Источник: Artificial Intelligence News
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Статьи и новости о нейросетях и искусственном интеллекте, просто и понятно о сложных технологиях. Освещает современные тенденции, объясняет, как работают ИИ-системы, и показывает, каким образом нейросети меняют различные сферы жизни. Регулярно собирает подборки и топы полезных нейросетей, тщательно отбирая актуальные инструменты и сервисы, которые могут существенно упростить рабочие и повседневные задачи. В своих подборках делится описаниями возможностей каждой нейросети, а также рекомендациями по их применению, чтобы помочь читателям быстро разобраться в новых технологиях и использовать их с максимальной пользой.
Социальные сети автора:





Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: