xAI представляет Grok-2, бросая вызов иерархии ИИ

Нейросеть Grok-2

Компания xAI объявила о выпуске Grok-2, значительного обновления, которое отличается улучшенными возможностями в общении, кодировании и рассуждениях.

Вместе с Grok-2, xAI представила Grok-2 mini, меньшую, но все же способную версию основной модели. Обе версии сейчас находятся в стадии бета-тестирования на платформе X и станут доступны через корпоративный API xAI позже в этом месяце.

Ранняя версия Grok-2 была протестирована на лидирующей позиции LMSYS под псевдонимом “sus-column-r”.

На момент объявления xAI утверждает, что её продукт превосходит как Claude 3.5 Sonnet от Anthropic, так и GPT-4-Turbo от OpenAI. Однако важно отметить, что GPT-4o в настоящее время занимает первое место как лучший AI-ассистент по общим возможностям, за ним следует Gemini 1.5 от Google.

Вау, еще одно потрясающее обновление от Chatbot Arena❤️‍🔥

Результаты для sus-column-r (Grok 2 ранняя версия) от @xAI теперь доступны публично**!

С более чем 12 000 голосов от сообщества, sus-column-r занял 3-е место в общем рейтинге, даже сравнявшись с GPT-4o!

— lmsys.org (@lmsysorg) 14 августа 2024 года

Процесс внутренней оценки xAI использует AI Tutors для оценки моделей по различным задачам в реальных условиях. Компания заявляет, что “Grok-2 показал значительные улучшения в рассуждениях с использованием полученного контента и в своих возможностях работы с инструментами, таких как правильное выявление недостающей информации, анализ последовательности событий и отбрасывание нерелевантных постов”.

Результаты бенчмаркинга, предоставленные xAI, показывают, что как Grok-2, так и Grok-2 mini демонстрируют существенные улучшения по сравнению с Grok-1.5. Модели показывают конкурентоспособные результаты в таких областях, как наука на уровне магистратуры, общие знания и проблемы математических соревнований. Особенно Grok-2 выделяется в задачах, основанных на визуальном восприятии, обеспечивая передовые результаты в визуальных математических рассуждениях и ответах на вопросы, основанные на документах.

Новый интерфейс Grok на платформе X включает в себя переработанный интерфейс и новые функции. Пользователи с подпиской Premium и Premium+ получат доступ к Grok-2 и Grok-2 mini. xAI описывает Grok-2 как “более интуитивный, управляемый и универсальный для широкого круга задач, будь то поиск ответов, совместная работа над текстом или решение задач по программированию”.

Компания xAI также сотрудничает с Black Forest Labs для экспериментов с их моделью FLUX.1, чтобы расширить возможности Grok на платформе X.

Для разработчиков xAI запустит корпоративную платформу API позже в этом месяце. Компания обещает улучшенные функции безопасности, богатую статистику трафика и расширенную аналитика для биллинга. Также будет доступен управляющий API для интеграции управления командами, пользователями и биллингом в существующие инструменты и сервисы.

В будущем xAI планирует ввести мульти-модальное понимание как основную часть опыта использования Grok как на платформе X, так и через API. Быстрый прогресс компании с момента объявления Grok-1 в ноябре 2023 года объясняется “малой командой с высочайшей плотностью талантов”.

Занимались посттренировкой Grok2 некоторое время и рады сообщить, что он официально выпущен!!

Мы тестировали ранние версии Grok2 на LMSYS Chatbot Arena под именами sus-column-r и column-r, и модели показывают отличные результаты!

— Xuechen Li (@lxuechen) 14 августа 2024 года

Фокус xAI остаётся на продвижении ключевых возможностей рассуждения с использованием нового вычислительного кластера, стремясь сохранять передовые позиции в развитии ИИ. Однако компания недавно согласилась прекратить использование некоторых данных ЕС для обучения своих моделей.

Хотя выпуск Grok-2 является значимым этапом для xAI, ясно, что ландшафт ИИ остаётся крайне конкурентным. С ChatGPT-4o и Gemini 1.5 от Google лидирующими позициями и другими крупными игроками, такими как Anthropic, продолжающими делать успехи, гонка за превосходство в этой области далека от завершения.

Источник: Artificial Intelligence News

Интересно? Поделиться: