Galileo, ведущий разработчик генеративного ИИ для корпоративных приложений, выпустил свой последний Индекс Галлюцинаций.
Оценочная структура, сфокусированная на генерации, с использованием увеличенного объема данных (RAG), проанализировала 22 крупных модели генеративного ИИ (LLM) от ведущих компаний, включая OpenAI, Anthropic и Google. В этом году индекс значительно расширился, добавив 11 новых моделей, чтобы отразить быстрый рост как открытых, так и закрытых моделей LLM за последние восемь месяцев.
Викрам Чаттерджи, генеральный директор и со-основатель Galileo, сказал: «В современном быстро меняющемся ландшафте ИИ разработчики и предприятия сталкиваются с критической задачей: как использовать мощь генеративного ИИ, соблюдая баланс между стоимостью, точностью и надежностью. Текущие эталонные показатели часто базируются на академических случаях, а не на реальных применениях.»
Индекс использовал фирменную оценочную метрику Galileo – соответствие контексту, для проверки точности выходных данных при различных длинах входных данных, от 1 000 до 100 000 токенов. Этот подход направлен на помощь предприятиям в принятии обоснованных решений по балансировке цены и производительности при внедрении ИИ.
Ключевые выводы из индекса включают:
– Claude 3.5 Sonnet от Anthropic стал лучшей общей моделью, постоянно набирая почти идеальные баллы во всех сценариях: коротких, средних и длинных контекстов.
– Gemini 1.5 Flash от Google занял первое место по экономической эффективности, демонстрируя высокую производительность во всех задачах.
– Qwen2-72B-Instruct от Alibaba выделился как лучшая открытая модель, особенно преуспевая в коротких и средних контекстах.
Индекс также подчеркнул несколько тенденций в ландшафте LLM:
– Открытые модели быстро сокращают разрыв с закрытыми моделями, предлагая улучшенную производительность галлюцинаций по более низким затратам.
– Текущие RAG LLM демонстрируют значительные улучшения в обработке увеличенных контекстов без потери качества или точности.
– Иногда меньшие модели превосходят большие, что указывает на то, что эффективный дизайн может быть важнее масштаба.
– Появление сильных исполнителей за пределами США, таких как Mistral-large от Mistral и qwen2-72b-instruct от Alibaba, указывает на растущую глобальную конкуренцию в разработке LLM.
Хотя закрытые модели, такие как Claude 3.5 Sonnet и Gemini 1.5 Flash, сохраняют лидерство благодаря частным данным для обучения, индекс показывает, что ландшафт быстро меняется. Производительность Google была особенно примечательной: его открытая модель Gemma-7b показала слабый результат, тогда как закрытая Gemini 1.5 Flash постоянно занимала верхние позиции.
Поскольку индустрия ИИ продолжает бороться с галлюцинациями как основным препятствием для готовых к производству генеративных ИИ продуктов, Индекс Галлюцинаций от Galileo предоставляет ценные идеи для предприятий, стремящихся выбрать подходящую модель в соответствии с их конкретными потребностями и бюджетными ограничениями.
Источник: Artificial Intelligence News