Anthropic или Google: Кто побеждает в борьбе с галлюцинациями ИИ?

Галлюцинации нейросетей

Galileo, ведущий разработчик генеративного ИИ для корпоративных приложений, выпустил свой последний Индекс Галлюцинаций.

Оценочная структура, сфокусированная на генерации, с использованием увеличенного объема данных (RAG), проанализировала 22 крупных модели генеративного ИИ (LLM) от ведущих компаний, включая OpenAI, Anthropic и Google. В этом году индекс значительно расширился, добавив 11 новых моделей, чтобы отразить быстрый рост как открытых, так и закрытых моделей LLM за последние восемь месяцев.

Викрам Чаттерджи, генеральный директор и со-основатель Galileo, сказал: «В современном быстро меняющемся ландшафте ИИ разработчики и предприятия сталкиваются с критической задачей: как использовать мощь генеративного ИИ, соблюдая баланс между стоимостью, точностью и надежностью. Текущие эталонные показатели часто базируются на академических случаях, а не на реальных применениях.»

Индекс использовал фирменную оценочную метрику Galileo — соответствие контексту, для проверки точности выходных данных при различных длинах входных данных, от 1 000 до 100 000 токенов. Этот подход направлен на помощь предприятиям в принятии обоснованных решений по балансировке цены и производительности при внедрении ИИ.

Ключевые выводы из индекса включают:

— Claude 3.5 Sonnet от Anthropic стал лучшей общей моделью, постоянно набирая почти идеальные баллы во всех сценариях: коротких, средних и длинных контекстов.
— Gemini 1.5 Flash от Google занял первое место по экономической эффективности, демонстрируя высокую производительность во всех задачах.
— Qwen2-72B-Instruct от Alibaba выделился как лучшая открытая модель, особенно преуспевая в коротких и средних контекстах.

Индекс также подчеркнул несколько тенденций в ландшафте LLM:

— Открытые модели быстро сокращают разрыв с закрытыми моделями, предлагая улучшенную производительность галлюцинаций по более низким затратам.
— Текущие RAG LLM демонстрируют значительные улучшения в обработке увеличенных контекстов без потери качества или точности.
— Иногда меньшие модели превосходят большие, что указывает на то, что эффективный дизайн может быть важнее масштаба.
— Появление сильных исполнителей за пределами США, таких как Mistral-large от Mistral и qwen2-72b-instruct от Alibaba, указывает на растущую глобальную конкуренцию в разработке LLM.

Хотя закрытые модели, такие как Claude 3.5 Sonnet и Gemini 1.5 Flash, сохраняют лидерство благодаря частным данным для обучения, индекс показывает, что ландшафт быстро меняется. Производительность Google была особенно примечательной: его открытая модель Gemma-7b показала слабый результат, тогда как закрытая Gemini 1.5 Flash постоянно занимала верхние позиции.

Поскольку индустрия ИИ продолжает бороться с галлюцинациями как основным препятствием для готовых к производству генеративных ИИ продуктов, Индекс Галлюцинаций от Galileo предоставляет ценные идеи для предприятий, стремящихся выбрать подходящую модель в соответствии с их конкретными потребностями и бюджетными ограничениями.

Источник: Artificial Intelligence News

Интересно? Поделиться: