Anthropic или Google: Кто побеждает в борьбе с галлюцинациями ИИ?

Galileo, ведущий разработчик генеративного ИИ для корпоративных приложений, выпустил свой последний Индекс Галлюцинаций.

Оценочная структура, сфокусированная на генерации, с использованием увеличенного объема данных (RAG), проанализировала 22 крупных модели генеративного ИИ (LLM) от ведущих компаний, включая OpenAI, Anthropic и Google. В этом году индекс значительно расширился, добавив 11 новых моделей, чтобы отразить быстрый рост как открытых, так и закрытых моделей LLM за последние восемь месяцев.

Викрам Чаттерджи, генеральный директор и со-основатель Galileo, сказал: «В современном быстро меняющемся ландшафте ИИ разработчики и предприятия сталкиваются с критической задачей: как использовать мощь генеративного ИИ, соблюдая баланс между стоимостью, точностью и надежностью. Текущие эталонные показатели часто базируются на академических случаях, а не на реальных применениях.»

Индекс использовал фирменную оценочную метрику Galileo — соответствие контексту, для проверки точности выходных данных при различных длинах входных данных, от 1 000 до 100 000 токенов. Этот подход направлен на помощь предприятиям в принятии обоснованных решений по балансировке цены и производительности при внедрении ИИ.

Ключевые выводы из индекса включают:

— Claude 3.5 Sonnet от Anthropic стал лучшей общей моделью, постоянно набирая почти идеальные баллы во всех сценариях: коротких, средних и длинных контекстов.
— Gemini 1.5 Flash от Google занял первое место по экономической эффективности, демонстрируя высокую производительность во всех задачах.
— Qwen2-72B-Instruct от Alibaba выделился как лучшая открытая модель, особенно преуспевая в коротких и средних контекстах.

Индекс также подчеркнул несколько тенденций в ландшафте LLM:

— Открытые модели быстро сокращают разрыв с закрытыми моделями, предлагая улучшенную производительность галлюцинаций по более низким затратам.
— Текущие RAG LLM демонстрируют значительные улучшения в обработке увеличенных контекстов без потери качества или точности.
— Иногда меньшие модели превосходят большие, что указывает на то, что эффективный дизайн может быть важнее масштаба.
— Появление сильных исполнителей за пределами США, таких как Mistral-large от Mistral и qwen2-72b-instruct от Alibaba, указывает на растущую глобальную конкуренцию в разработке LLM.

Хотя закрытые модели, такие как Claude 3.5 Sonnet и Gemini 1.5 Flash, сохраняют лидерство благодаря частным данным для обучения, индекс показывает, что ландшафт быстро меняется. Производительность Google была особенно примечательной: его открытая модель Gemma-7b показала слабый результат, тогда как закрытая Gemini 1.5 Flash постоянно занимала верхние позиции.

Поскольку индустрия ИИ продолжает бороться с галлюцинациями как основным препятствием для готовых к производству генеративных ИИ продуктов, Индекс Галлюцинаций от Galileo предоставляет ценные идеи для предприятий, стремящихся выбрать подходящую модель в соответствии с их конкретными потребностями и бюджетными ограничениями.

Источник: Artificial Intelligence News

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

AI News

Статьи и новости о нейросетях и искусственном интеллекте, просто и понятно о сложных технологиях. Освещает современные тенденции, объясняет, как работают ИИ-системы, и показывает, каким образом нейросети меняют различные сферы жизни. Регулярно собирает подборки и топы полезных нейросетей, тщательно отбирая актуальные инструменты и сервисы, которые могут существенно упростить рабочие и повседневные задачи. В своих подборках делится описаниями возможностей каждой нейросети, а также рекомендациями по их применению, чтобы помочь читателям быстро разобраться в новых технологиях и использовать их с максимальной пользой.

Социальные сети автора: