Anthropic анонсировала обновления в своем портфеле ИИ, включая усовершенствованную модель Claude 3.5 Sonnet и новую Claude 3.5 Haiku, а также функцию «управления компьютером», которая находится на стадии публичного бета-тестирования.
Обновленная модель Claude 3.5 Sonnet демонстрирует значительные улучшения по всем параметрам, особенно заметны достижения в области программирования. Модель достигла впечатляющего результата в 49,0% на бенчмарке SWE-bench Verified, превзойдя все публично доступные модели, включая разработки OpenAI и специализированные системы программирования.
В новаторском шаге Anthropic представила функциональность для использования компьютеров, которая позволяет модели Claude взаимодействовать с компьютерами так же, как люди: просматривать экраны, управлять курсором, кликать и вводить текст. Эта возможность, которая сейчас находится на стадии публичного бета-тестирования, делает Claude 3.5 Sonnet первой ИИ-моделью, предлагающей такую функциональность.
Несколько крупных технологических компаний уже начали внедрять эти новые возможности.
«Обновленная Claude 3.5 Sonnet представляет собой значительный шаг вперед для программирования на основе ИИ», — сообщили в GitLab, отметив повышение точности логических рассуждений на 10% в различных сценариях использования без увеличения задержек.
Новая модель Claude 3.5 Haiku, которая будет выпущена в конце этого месяца, сопоставима по производительности с предыдущей моделью Claude 3 Opus, оставаясь при этом рентабельной и быстрой. Она достигла результата 40,6% на SWE-bench Verified, превзойдя многие конкурентные модели, включая оригинальную Claude 3.5 Sonnet и GPT-4o.
Что касается возможностей управления компьютером, Anthropic подошла к этому вопросу осмотрительно, признавая текущие ограничения, но подчеркивая высокий потенциал. На бенчмарке OSWorld, оценивающем навигацию по интерфейсам компьютеров, Claude 3.5 Sonnet набрала 14,9% в тестах с использованием только скриншотов, что значительно превышает показатель ближайшей аналогичной системы в 7,8%.
Все нововведения прошли тщательные проверки безопасности. Тестирование перед развертыванием проводилось в сотрудничестве с институтами безопасности ИИ США и Великобритании. Anthropic заявляет, что стандарт ASL-2 остается подходящим для этих моделей.
Источник: Artificial Intelligence News