Исследование Microsoft показало, что модели ИИ по-прежнему испытывают трудности с отладкой ПО

Исследование Microsoft показало, что модели ИИ по-прежнему испытывают трудности с отладкой ПО

Модели ИИ от OpenAI, Anthropic и других ведущих лабораторий ИИ всё чаще используются для помощи в решении задач по программированию. Генеральный директор Google Сундар Пичаи заявил в октябре, что 25% нового кода в компании генерируется с помощью ИИ.

Тем не менее, даже некоторые из лучших современных моделей с трудом устраняют программные ошибки, которые не вызывают затруднений у опытных разработчиков.

Новое исследование от Microsoft Research, подразделения Microsoft, занимающегося исследованиями и разработками, показывает, что модели, в том числе Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не справляются с отладкой многих проблем в бенчмарке разработки программного обеспечения под названием SWE-bench Lite. Результаты являются отрезвляющим напоминанием о том, что, несмотря на смелые заявления таких компаний, как OpenAI, ИИ по-прежнему не может сравниться с экспертами-людьми в таких областях, как программирование.

Соавторы исследования протестировали девять различных моделей в качестве основы для «агента с единой подсказкой», у которого был доступ к ряду инструментов отладки, включая отладчик Python. Они поручили этому агенту решить тщательно отобранный набор из 300 задач по отладке программного обеспечения из SWE-bench Lite.

По словам соавторов, даже при использовании более мощных и современных моделей их агент редко успешно выполнял более половины задач по отладке. Наивысший средний показатель успешности был у Claude 3.7 Sonnet (48,4%), за ним следовали o1 от OpenAI (30,2%) и o3-mini (22,1%).

Тест отладки ИИ Microsoft
Тест отладки ИИ Microsoft

Модели испытывают трудности с использованием доступных им инструментов отладки и пониманием того, как разные инструменты могут помочь в решении проблем. Однако, по словам соавторов, большей проблемой была нехватка данных. Они предполагают, что в данных обучения текущих моделей недостаточно данных, представляющих «последовательные процессы принятия решений» — то есть следы отладки человеком.

«Мы твёрдо убеждены, что обучение или тонкая настройка [моделей] могут сделать их более эффективными интерактивными отладчиками, — написали соавторы в своём исследовании. — Однако для такого обучения модели потребуются специализированные данные, например, данные о траекториях, которые фиксируют взаимодействие агентов с отладчиком для сбора необходимой информации перед предложением исправления ошибки».

Результаты не стали неожиданностью. Многие исследования показали, что ИИ, генерирующий код, как правило, создаёт уязвимости и ошибки в системе безопасности из-за слабых мест в таких областях, как способность понимать логику программирования. Недавняя оценка Devin, популярного инструмента для написания кода на основе ИИ, показала, что он смог пройти только 3 из 20 тестов по программированию.

Но работа Microsoft — это один из наиболее подробных обзоров постоянной проблемной области для моделей. Это, скорее всего, не уменьшит энтузиазм инвесторов в отношении вспомогательных инструментов для программирования на основе ИИ, но, если повезёт, заставит разработчиков — и их руководителей — дважды подумать, прежде чем доверить ИИ программирование.

Как бы то ни было, всё больше технологических лидеров оспаривают мнение о том, что ИИ автоматизирует работу программистов. Соучредитель Microsoft Билл Гейтс заявил, что, по его мнению, программирование как профессия никуда не денется. То же самое сказали генеральный директор Replit Амджад Масадгенеральный директор Okta Тодд Маккиннон и генеральный директор IBM Арвинд Кришна.

Источник: TechCrunch

Интересно? Поделиться:

5 комментариев для “Исследование Microsoft показало, что модели ИИ по-прежнему испытывают трудности с отладкой ПО

  1. Соавторы исследования протестировали девять различных моделей в качестве основы для агента, который имел доступ к ряду инструментов отладки, включая отладчик Python. Они поручили этому агенту решить курируемый набор из 300 задач по отладке программного обеспечения из SWE-bench Lite.

  2. Эти результаты подчеркивают, что, несмотря на значительные успехи ИИ в генерации кода, его способности к отладке остаются ограниченными. Проблемы возникают из-за недостаточной способности моделей к активному взаимодействию с инструментами отладки и анализа кода, что затрудняет выявление и исправление ошибок .​

  3. Да, очевидно, что компания Microsoft сталкивается с рядом трудностей при создании эффективных ИИ-отладчиков. Интеграция ИИ в процесс поиска и устранения багов — задача непростая: необходимо не просто анализировать код, но и учитывать контекст, логику приложения, зависимости и даже стиль написания конкретного разработчика.

  4. ИИ будет доминировать во всех областях. так же, как он уже доминирует

  5. Ну, значит, програмисты пока что не останутся без работы. Пока ИИ будет исправлять двойку по программитрованию, специалисты будут дальше строчить код

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *