Старшеклассник создал сайт, на котором можно бросить вызов моделям ИИ в игре Minecraft

Старшеклассник создал сайт, на котором можно бросить вызов моделям ИИ в игре Minecraft

Поскольку традиционные методы тестирования ИИ оказываются неэффективными, разработчики ИИ прибегают к более творческим способам оценки возможностей генеративных моделей ИИ. Для одной группы разработчиков таким способом является Minecraft — принадлежащая Microsoft игра-песочница.

Веб-сайт Minecraft Benchmark (или MC-Bench) был разработан с целью сравнить модели ИИ друг с другом в прямых соревнованиях по созданию творений Minecraft. Пользователи могут проголосовать за то, какая модель справилась лучше, и только после голосования они смогут увидеть, какой ИИ создал каждое творение Minecraft.

Для Ади Сингха, 12-классника, запустившего MC-Bench, ценность Minecraft заключается не столько в самой игре, сколько в том, насколько хорошо люди с ней знакомы — в конце концов, это самая продаваемая видеоигра всех времён. Даже люди, которые не играли в эту игру, всё равно могут оценить, какое блочное изображение ананаса лучше.«Minecraft позволяет людям гораздо легче следить за прогрессом [в разработке ИИ], — сказал Сингх в интервью TechCrunch. — Люди привыкли к Minecraft, привыкли к его внешнему виду и атмосфере».

В настоящее время MC-Bench насчитывает восемь человек в качестве волонтёров-разработчиков. Anthropic, Google, OpenAI и Alibaba субсидировали использование своих продуктов для запуска бенчмарков, согласно веб-сайту MC-Bench, но компании никак не связаны иным образом.

«В настоящее время мы просто создаём простые модели, чтобы понять, как далеко мы продвинулись с эпохи GPT-3, но [мы] можем представить, как будем масштабироваться до более сложных планов и задач, ориентированных на достижение целей, — сказал Сингх. — Игры могут быть просто средством для тестирования агентного мышления, которое безопаснее, чем в реальной жизни, и более контролируемо в целях тестирования, что, на мой взгляд, делает его более идеальным».

Другие игры, такие как Pokémon Red, Street Fighter и Pictionary, использовались в качестве экспериментальных тестов для ИИ, отчасти потому, что искусство тестирования ИИ известно своей сложностью.

Исследователи часто тестируют модели ИИ с помощью стандартизированных оценок, но многие из этих тестов дают ИИ преимущество «на своей территории». Из-за того, как они обучаются, модели от природы хорошо справляются с определёнными узкими задачами по решению проблем, особенно с задачами, требующими механического запоминания или базовой экстраполяции.

Проще говоря, трудно понять, что означает тот факт, что GPT-4 от OpenAI может набрать 88 баллов по LSAT, но не может определить, сколько букв «р» в слове «клубника». Claude 3.7 Sonnet от Anthropic достиг 62,3% точности в стандартизированном тесте на разработку программного обеспечения, но играет в покемонов хуже, чем большинство пятилетних детей.

MC-Bench технически является бенчмарком для программирования, поскольку моделям предлагается написать код для создания предложенной сборки, например «Снеговик Фрости» или «очаровательная тропическая пляжная хижина на нетронутом песчаном берегу».

Но большинству пользователей MC-Bench проще оценить, выглядит ли снеговик лучше, чем копаться в коде, что делает проект более привлекательным и, следовательно, позволяет собирать больше данных о том, какие модели стабильно показывают лучшие результаты.

Конечно, вопрос о том, насколько эти показатели отражают полезность ИИ, остаётся открытым. Однако Сингх утверждает, что это серьёзный сигнал.

«Текущая таблица лидеров довольно точно отражает мой собственный опыт использования этих моделей, в отличие от многих тестов, основанных на чистом тексте, — сказал Сингх. — Возможно, [MC-Bench] может быть полезен компаниям, чтобы понять, в правильном ли направлении они движутся».

Источник: TechCrunch

Интересно? Поделиться:

6 комментариев для “Старшеклассник создал сайт, на котором можно бросить вызов моделям ИИ в игре Minecraft

  1. Очень здравая идея. В прямой борьбе за выживание эволюция протекает намного быстрее. Так что MC-Bench может стать прекрасным катализатором для развития ИИ-технологий.

  2. Крутая задумка! Сравнивать ИИ в Minecraft — это и полезно, и понятно даже тем, кто не разбирается в программировании. Такой способ тестирования выглядит намного живее, чем сухие цифры в таблицах.

  3. Это невероятно увлекательная идея! Создать платформу, где можно проверить свои навыки против ИИ в Minecraft – настоящий вызов как для игроков, так и для самих алгоритмов. Интересно, насколько продвинутыми стали модели ИИ и смогут ли они соперничать с опытными игроками? Было бы здорово увидеть, как развивается этот проект и какие стратегии используют нейросети!

  4. «Очень интересная идея! Создать платформу, где можно проверить свои навыки против ИИ в Minecraft – это впечатляющий вызов как для игроков, так и для самих моделей. Было бы интересно узнать, насколько сложны эти ИИ и способны ли они адаптироваться к разным стилям игры. Как думаете, смогут ли они когда-нибудь превзойти топовых игроков?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *