Molmo: нейросеть с открытым исходным кодом, более легкая, но такая же мощная, как и крупные модели OpenAI

Логотип Molmo

Исследователи разработали серию мультимодальных ИИ с открытым исходным кодом, обученных на небольшом количестве данных, но по эффективности не уступающих лучшим современным моделям, например, от OpenAI. Ключ к их эффективности лежит в качестве и организации данных, в отличие от крупномасштабных моделей, созданных на основе огромного количества информации, беспорядочно полученной из Интернета. Это позволит снизить затраты на обучение и улучшить масштабируемость, а также получить дополнительное преимущество в виде открытого исходного кода.

Мультимодальный ИИ отличается от унимодального тем, что способен обрабатывать и интерпретировать одновременно несколько типов данных, таких как текст, изображения и аудио. Самые мощные модели на рынке, такие как модели OpenAI и Google, являются «проприетарными». Это означает, что доступ к их исходному коду ограничен компанией либо по соображениям коммерческой тайны, либо по соображениям интеллектуальной собственности. Таким образом, разработка контролируется одним игроком, в основном с целью получения прибыли.

Однако такое ограничение дает ряд преимуществ, включая профессиональную техническую поддержку, регулярные обновления и более высокую производительность, достигаемую за счет больших финансовых ресурсов. Однако оно также подразумевает высокий уровень зависимости от поставщика и отсутствие прозрачности и свободы кастомизации со стороны пользователей. С другой стороны, хотя компании, владеющие этими моделями, в последние годы получили миллиарды долларов финансирования, инвесторы недавно выразили скептицизм по поводу рентабельности этих масштабных инвестиций.

Некоммерческий исследовательский институт Allen Institute for Artificial Intelligence (Ai2) считает, что модели с открытым исходным кодом могут быть более выгодными, не в последнюю очередь потому, что их разработка обходится значительно дешевле. Исходя из этого, команда Ai2 разработала модели, известные под названием «Molmo», которые ориентированы на качество данных, а не на их количество. «Логично, что в целом обучение на данных лучшего качества может снизить вычислительные затраты», — пояснил MIT Technology Review Перси Лян, директор Стэнфордского центра исследований базовых моделей, который не принимал участия в разработке. Такой строгий отбор данных также позволил бы получить производительность, эквивалентную или даже превосходящую производительность крупных собственных моделей».

Качество данных превыше количества

Открытый исходный код означает открытое сотрудничество. Поэтому исходные коды моделей ИИ такого типа доступны без ограничений, что позволяет любому человеку свободно проверять, изменять и распространять их. Это способствует прозрачности, инновациям со стороны сообщества разработчиков разного профиля и независимости от единственного поставщика. Однако такие модели обычно подвергаются критике за их производительность, которая зачастую уступает производительности собственных моделей. В Ai2 предположили, что качество данных, на основе которых они формируются, может изменить ситуацию.

Самая большая модель Molmo обучена на основе хорошо организованного, предварительно отобранного набора из всего 600 000 изображений и включает 72 миллиарда параметров (7 миллиардов для самой маленькой модели). В отличие от этого, крупные собственные модели формируются на основе миллиардов несортированных изображений и текстов, полученных из Интернета, и включают несколько тысяч миллиардов параметров. По словам Анируддхи Кембхави, директора по исследованиям компании Ai2, это вносит много шума в обучающие данные и галлюцинаций в ответы.

Чтобы обучить модели Molmo, человеческие аннотаторы описывали каждое изображение в обучающем наборе данных с такой степенью детализации, которая могла бы занять несколько страниц текста. В частности, аннотаторы описывали изображения вслух, а не набирали описательный текст. Эти описания затем преобразовывались в код, что сокращало время обучения и уменьшало требуемую вычислительную мощность, а значит, и ресурсы.

Первоначальная стандартная версия Molmo доступна здесь, а ее код вскоре будет доступен разработчикам на сайте Hugging Face. «Вскоре мы опубликуем все наши модели для оценки, данные о подписях и тонкой настройке, а также наш исходный код», — объясняет команда в блоге, посвященном модели. Однако некоторые элементы самой мощной модели все еще остаются под защитой.

Модель, превосходящая GPT-4o и Gemini 1.5

Команда Ai2 утверждает, что самая большая модель Molmo (с 72 миллиардами параметров) превосходит GPT-4o (от OpenAI), Claude 3.5 (от Anthropic) и Gemini 1.5 (от Google) по обработке и интерпретации изображений, графиков и документов. Самая маленькая модель (с 7 миллиардами параметров) приближается к этому показателю.

Например, в одной из демонстраций исследователи попросили моделей определить различные элементы (шезлонги) на изображении, взятом наугад из окна офиса. Элементы были идентифицированы и точно подсчитаны. Однако им пока не удалось определить более тонкие детали, такие как конкретные парковочные зоны.

Тем не менее, компания утверждает, что Molmo способен указывать на конкретные объекты на изображениях, определяя пиксели, соответствующие запросу пользователя. Хотя другие продвинутые модели ИИ также могут описывать изображения, возможности Molmo позволят ему взаимодействовать со сложными интерфейсами, например, для бронирования авиабилетов.

Производительность Molmo также будет зависеть от того, что разработчики смогут сделать для его улучшения на этой прочной базе. «Мы рады, что можем помочь другим и посмотреть, что они создадут на этой основе», — говорит Фархади. Однако использование открытого исходного кода также связано с проблемами безопасности и ответственности, требующими строгого управления – аспект, подробности по которому команда еще не предоставила.

Источник: Новая Наука

Интересно? Поделиться:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *