Исследование Microsoft показывает, что модели ИИ все еще испытывают трудности с отладкой программного обеспечения

Исследование Microsoft показывает, что модели ИИ все еще испытывают трудности с отладкой программного обеспечения
Модели искусственного интеллекта от таких компаний, как OpenAI и Anthropic, а также других ведущих лабораторий становятся всё более востребованными в сфере программирования. Генеральный директор Google, Сундар Пичаи, в октябре сообщил, что 25% нового кода в компании создаётся с использованием ИИ, тогда как Марк Цукерберг из Meta* выразил намерение активно внедрять технологии кодирования на базе ИИ в своего рода социальной сети.

Тем не менее, даже лучшие модели, имеющиеся на данный момент, иногда сталкиваются с трудностями при устранении программных ошибок, которые могли бы легко решить опытные разработчики.

Исследование, проведенное Microsoft Research, показало, что такие модели, как Anthropic Claude 3.

7 Sonnet и OpenAI o3-mini, имеют затруднения с решением множества задач в тесте SWE-bench Lite, специально разработанном для оценки способности к разбору ошибок в программном обеспечении.

Результаты исследования служат важным напоминанием о том, что, несмотря на уверенные заявления компаний вроде OpenAI, возможности ИИ всё ещё не достигают уровня человеческой экспертизы в программировании.

Авторы исследования протестировали девять различных моделей в роли «агента на основе подсказок», имеющего доступ к различным отладочным инструментам, включая Python-отладчик.

Агенту было поручено решить тщательно подобранный набор из 300 задач по отладке с использованием SWE-bench Lite.

Как сообщают соавторы, даже при использовании более современных моделей агент редко успешно справлялся более чем с половиной поставленных задач.

Claude 3.7 Sonnet показал наилучший средний результат успешного выполнения задач (48,4%), за ним следуют o1 от OpenAI (30,2%) и o3-mini (22,1%). Почему такие результаты? Некоторые модели неэффективно использовали доступные инструменты отладки и не сталкивались с пониманием того, как различные инструменты могут помочь в решении конкретных задач.

Однако более серьезной проблемой стала нехватка данных.

Соавторы исследования предполагают, что в обучающих наборах современных моделей недостаточно информации о «последовательных процессах принятия решений», то есть о шагах отладки, проводимых человеком.

Авторы исследования assert, что обучение или тонкая настройка моделей могут поднять их в качестве интерактивных отладчиков. Тем не менее, для достижения этого необходимо собрать специализированные данные, такие как траектории взаимодействия агентов с отладчиком, чтобы обеспечить необходимую информацию для корректировки ошибок.

Эти результаты не являются необоснованными.

Множество исследований уже показали, что ИИ, создающий код, нередко генерирует уязвимости и ошибки в системах безопасности из-за ограниченных навыков понимания программной логики.

Например, недавняя оценка инструмента Devin, предназначенного для кодирования на базе ИИ, показала, что он успешно завершает только три из двадцати тестовых задач.

Тем не менее, работа Microsoft представляет собой один из самых детальных анализов проблем, с которы.
Опубликовано: 00:26, апреля 13, 2025 Рубрика: Наука и Технологии Источник: itzine.ru Поделиться: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit
 
 
Большие языковые модели испытывают трудности с координацией в социальных и кооперативных играх

Большие языковые модели испытывают трудности с координацией в социальных и кооперативных играх Большие языковые модели (LLM), такие как модель, лежащая в основе функционирования популярной диалоговой платформы ChatGPT, в настоящее время широко …

Интернет и Игры 07:26, июня 2, 2025 | android-robot.com
Microsoft представила новые инструменты для разработки программного обеспечения, связанного с ИИ

Microsoft представила новые инструменты для разработки программного обеспечения, связанного с ИИ Microsoft рассказала о новых инструментах, призванных побудить программистов встраивать технологии, ориентированные на искусственный интеллект, в про …

Экономика и Финансы 21:30, мая 22, 2024 | finam.ru
ВСУ под Часовым Яром испытывают трудности из-за массового дезертирства

ВСУ под Часовым Яром испытывают трудности из-за массового дезертирства Под Часовым Яром, где продолжается активное наступление российской армии, в плен сдаются бойцы лучших бригад Вооруженных сил Украины. Об этом в интер …

Военное 00:24, апреля 20, 2024 | gazeta.ru
Интернет-магазин лицензионного программного обеспечения

Интернет-магазин лицензионного программного обеспечения . Отличное программное обеспечение предлагает Софтлайн, интернет-магазин имеет большой каталог с сотнями наименований. В наличии и другие предложения …

Общие новости 21:26, октября 29, 2024 | smolensk-i.ru
Угрозы ИИ при разработке программного обеспечения выявлены в новом исследовании

Угрозы ИИ при разработке программного обеспечения выявлены в новом исследовании Исследователи UTSA недавно завершили одно из самых всеобъемлющих исследований на сегодняшний день, посвященных рискам использования моделей ИИ для ра …

Интернет и Игры 07:26, апреля 11, 2025 | android-robot.com
США запретят оказывать России услуги в сфере программного обеспечения и IT

США запретят оказывать России услуги в сфере программного обеспечения и IT Соединённые Штаты ввели запрет на предоставление услуг в сфере программного обеспечения лицам из Российской Федерации. Об этом заявил американский Ми …

Наука и Технологии 02:42, июня 13, 2024 | news.rambler.ru
США заявили о новых ограничениях на поставки программного обеспечения в РФ и Белоруссию

США заявили о новых ограничениях на поставки программного обеспечения в РФ и Белоруссию В Минторге Соединенных Штатов отметили, что также ввели экспортные ограничения в отношении четырех структур в Китае …

Экономика 21:30, июня 12, 2024 | tass.ru
США запретили оказывать услуги в сфере программного обеспечения и IT в России

США запретили оказывать услуги в сфере программного обеспечения и IT в России Власти США ввели запрет на предоставление услуг в сфере IT и программного обеспечения на территории России, сообщается в документе Министерстве финан …

Общие новости 19:54, июня 12, 2024 | regnum.ru
США запретили оказывать ряд услуг в сфере программного обеспечения и IT в России

США запретили оказывать ряд услуг в сфере программного обеспечения и IT в России Министерство финансов США сообщило, что в рамках расширения санкций Соединенные Штаты запрещают предоставление услуг в сфере программного обеспечения …

Общие новости 19:06, июня 12, 2024 | kommersant.ru
IBM близка к покупке разработчика облачного программного обеспечения HashiCorp

IBM близка к покупке разработчика облачного программного обеспечения HashiCorp IBM близка к сделке по покупке поставщика облачного программного обеспечения HashiCorp, пишет Reuters со ссылкой на источник, знакомый с ситуацией.Ак …

Экономика и Финансы 07:00, апреля 24, 2024 | finam.ru
Открытие кода программного обеспечения для умных часов Pebble Watch

Открытие кода программного обеспечения для умных часов Pebble Watch Эрик Мигиковски (Eric Migicovsky), основатель компании Pebble Technology, объявил об открытии недостающего исходного кода программного обеспечения Pe …

Интернет и Игры 14:26, ноября 27, 2025 | opennet.ru
Владелица Tesla оказалась заперта в автомобиле при температуре 46C из-за обновления программного обеспечения

Владелица Tesla оказалась заперта в автомобиле при температуре 46°C из-за обновления программного обеспечения Пользовательница TikTok пожаловалась, что в жаркий день она оказалась запертой в своем автомобиле Tesla, пока тот завершал обновление программного об …

Это интересно 08:06, апреля 19, 2024 | incrussia.ru
Samsung Galaxy A12 получает первое обновление программного обеспечения в 2024 году

Samsung Galaxy A12 получает первое обновление программного обеспечения в 2024 году Samsung начала выпускать первое обновление программного обеспечения для Galaxy A12 в 2024 году. Это обновление включает патч безопасности за май 2024 …

Гаджеты 18:42, мая 31, 2024 | gagadget.com
Швабе и РТ-Техприемка представили проект создания российского программного обеспечения для оптического проектирования

«Швабе» и «РТ-Техприемка» представили проект создания российского программного обеспечения для оптического проектирования Холдинги «Швабе» и «РТ-Техприемка» госкорпорации «Ростех» презентовали совместный проект разработки ПО для... …

Интернет и Игры 16:30, мая 27, 2024 | cnews.ru
ДГТУ и Группа Астра создадут учебно-научный проект по разработке отечественного программного обеспечения

ДГТУ и «Группа Астра» создадут учебно-научный проект по разработке отечественного программного обеспечения Донской государственный технический университет и российская технологическая компания «Группа Астра» запустят... …

Интернет и Игры 22:30, июня 7, 2024 | cnews.ru
Пользователи Ред ОС 8 получили дополнительные инструменты обеспечения информационной безопасности с помощью программного комплекса Сакура

Пользователи «Ред ОС» 8 получили дополнительные инструменты обеспечения информационной безопасности с помощью программного комплекса «Сакура» Пользователи отечественной операционной системы «Ред ОС» 8 от компании «Ред Софт» могут усилить защиту рабочих... …

Интернет и Игры 16:48, мая 27, 2024 | cnews.ru
Программного обеспечения хватило для ареста // Обвиняемым в хищении средств на контракт для спецсвязи ФСО меру пресечения избрали заочно

Программного обеспечения хватило для ареста // Обвиняемым в хищении средств на контракт для спецсвязи ФСО меру пресечения избрали заочно Как стало известно “Ъ”, Басманный суд Москвы заочно арестовал бывшего проректора по информационным технологиям Регионального финансово-экономического …

Происшествия 03:54, мая 2, 2024 | kommersant.ru
Сеть SubQuery создает более доступное и надежное цифровое будущее на основе децентрализованного промежуточного программного обеспечения

Сеть SubQuery создает более доступное и надежное цифровое будущее на основе децентрализованного промежуточного программного обеспечения /div> Чтобы произвести революцию в пространстве Web3, SubQuery Network стремится предложить разработчикам DApp сочетание эффективности централизованн …

Крипто 19:54, апреля 22, 2024 | cryptobrokers.ru
Исследование Apple Hearing Study: 15% людей испытывают ежедневный шум в ушах

Исследование Apple Hearing Study: 15% людей испытывают ежедневный шум в ушах В своих последних исследованиях Apple Hearing Study привлекла внимание к распространенности шума и звона в ушах среди людей. Согласно исследованию, 1 …

Гаджеты 22:24, мая 28, 2024 | gagadget.com
Марат Хуснуллин: Несмотря на все трудности и попытки воздействия противника, Брянская область показывает хорошую динамику!

Марат Хуснуллин: «Несмотря на все трудности и попытки воздействия противника, Брянская область показывает хорошую динамику!» По итогам посещения Брянской области заместитель Председателя Правительства РФ Марат Хуснуллин отметил… …

Общие новости 14:26, сентября 2, 2024 | bryanskobl.ru
Microsoft снизила зависимость от OpenAI  в Microsoft 365 Copilot появились ИИ-модели Claude от Anthropic

Microsoft снизила зависимость от OpenAI — в Microsoft 365 Copilot появились ИИ-модели Claude от Anthropic Microsoft начала интеграцию ИИ-моделей Claude Sonnet 4 и Claude Opus 4.1 от компании Anthropic в свои офисные приложения Microsoft 365 Copilot. Это р …

Software 21:26, сентября 25, 2025 | 3dnews.ru
Microsoft добавляет ИИ-модели Anthropic в Microsoft 365 Copilot

Microsoft добавляет ИИ-модели Anthropic в Microsoft 365 Copilot На протяжении последних месяцев Microsoft активно работает над диверсификацией своей стратегии в области искусственного интеллекта, стремясь ослабить …

Интернет и Игры 21:26, октября 5, 2025 | thecommunity.ru
Исследование показывает, что 4-дневная рабочая неделя улучшает самочувствие и удовлетворенность работой

Исследование показывает, что 4-дневная рабочая неделя улучшает самочувствие и удовлетворенность работой Работать сверхурочно неделю за неделей, не видя конца, тяжелее всего для сотрудников. Доказано , что продолжительный рабочий день значительно ухудшае …

Наука и Технологии 21:26, августа 2, 2025 | android-robot.com
Исследование: сила хвата рук показывает защиту организма от болезней и ранней смерти

Исследование: сила хвата рук показывает защиту организма от болезней и ранней смерти Крупнейшее исследование показало, что гены, влияющие на силу рук напрямую связаны со здоровьем. Так у людей с наибольшей предрасположенностью к силе …

Это интересно 20:00, апреля 29, 2024 | incrussia.ru