数据分析

微软研究戳破 AI 编程 “神话”:调试软件,它还嫩了点!

2025-04-11 11:49:22 Pea 阅读:25
微软研究戳破 AI 编程 “神话”:调试软件,它还嫩了点!

当下,AI 领域可谓热火朝天,OpenAI、Anthropic 等一众顶尖实验室研发的模型,正大举进军编程界。谷歌那边,首席执行官桑达尔・皮查伊早在 10 月就透露,公司新代码里,有 25% 都是 AI 的 “杰作”;而 Meta 的掌舵人马克・扎克伯格,也满心盘算着在自家社交媒体帝国里,全面铺开 AI 编码模型,那野心昭然若揭。
可现实却给这些美好的憧憬泼了盆冷水。别看 AI 模型平时 “秀操作” 挺唬人,真到了软件调试的关键时刻,面对那些经验丰富的开发者轻松就能搞定的软件漏洞,它们却常常被 “卡脖子”,显得力不从心。
微软研究院 —— 微软的研发 “智囊团”,最近搞了一项研究,直接把 AI 模型在软件调试上的短板暴露无遗。在一个叫 SWE-bench Lite 的软件开发基准测试里,像 Anthropic 的 Claude 3.7 Sonnet,还有 OpenAI 的 o3-mini 这类模型,面对一系列软件问题,调试尝试纷纷 “翻车”。这结果就像一记重锤,狠狠敲醒了那些对 AI 盲目乐观的人:尽管 OpenAI 等公司把 AI 吹得神乎其神,但在编码这个专业领域,AI 和人类专家相比,还是差了一大截。
为了弄清楚 AI 模型在软件调试上到底啥水平,研究的几位共同作者找来九个不同的模型,把它们当作一个 “基于单一提示的智能体” 的核心部分。这个智能体还配备了 Python 调试器等一堆调试工具,看着挺 “豪华”。接着,研究人员从 SWE-bench Lite 里精挑细选了 300 个软件调试任务,丢给这个 “全副武装” 的智能体去解决。
结果让人挺失望。哪怕给智能体配上最新、最强的模型,它能成功完成一半以上调试任务的情况,也少得可怜。Claude 3.7 Sonnet 算是表现最好的,平均成功率也就 48.4%;OpenAI 的 o1 排第二,成功率 30.2%;o3-mini 更惨,只有 22.1%
为啥 AI 模型在调试软件时这么不给力呢?一方面,有些模型连现成的调试工具都用不明白,根本搞不清不同工具该在啥时候派上用场。但研究人员觉得,更大的问题出在数据上。他们猜测,现在模型训练用的数据里,能反映 “顺序决策过程”(说白了,就是人类调试软件时的思路和步骤)的数据严重不足。
研究的共同作者在报告里写道:“我们心里清楚,要是对模型进行训练或者微调,肯定能让它们在交互式调试上表现好点。但这可不是嘴上说说就行,得有专门的数据来配合训练,比如说,得有那种能记录智能体和调试器互动过程的数据,这样智能体才能在给出修复漏洞方案前,收集到有用信息。”
其实,AI 模型在代码生成方面有缺陷,也不是啥新鲜事了。之前就有好多研究发现,因为在理解编程逻辑这些关键地方有短板,AI 生成的代码经常藏着安全漏洞,错误也不少。就拿一款挺火的 AI 编码工具 Devin 来说,最近有人对它做了评估,20 个编程测试,它吭哧吭哧半天,也就勉强通过了 3 个。
不过,微软这次的研究,算是把模型在软件调试这块的老问题,掰开了、揉碎了给大家看。虽说这不一定能让那些对 AI 辅助编码工具狂热的投资者冷静下来,但好歹能给开发者和他们的领导提个醒:真要让 AI 在编码工作里 “挑大梁”,可得三思而后行。
有意思的是,现在越来越多科技圈的大佬,都站出来反对 “AI 会抢走程序员饭碗” 这个说法。微软联合创始人比尔・盖茨就直言,编程这行,往后还得靠人;Replit 的首席执行官阿姆贾德・马萨德、Okta 的首席执行官托德・麦金农,还有 IBM 的首席执行官阿尔温德・克里希纳,也都持相同观点。看来,在软件编程这场大戏里,人类程序员的 “主角光环”,一时半会儿还摘不掉。

相关文章

特朗普关税引发美国抢购潮,淘宝强势冲进美区 App Store 前五
数据分析

特朗普关税引发美国抢购潮,淘宝强势冲进美区 App Store 前五

2025-04-23 12:00:52 阅读:8
关税风暴来袭,科技并购市场的复苏梦碎了?
数据分析

关税风暴来袭,科技并购市场的复苏梦碎了?

2025-04-22 11:34:22 阅读:18
OpenAI 翻车!o3 模型实测成绩远低于官宣,AI 界数据迷雾又起?
数据分析

OpenAI 翻车!o3 模型实测成绩远低于官宣,AI 界数据迷雾又起?

2025-04-21 15:01:20 阅读:28
百度 百度热点
抖音热榜 抖音热榜
新浪微博 新浪微博
今日头条 今日头条
腾讯新闻 腾讯新闻
知乎热搜 知乎热搜
36氪 36氪
雪球网 雪球网

最新帖子

必搜资讯:创业者的一站式宝藏资讯平台
营销推广

必搜资讯:创业者的一站式宝藏资讯平台

2025-04-23 16:17:41 阅读:8
2025 年,这些轻创业风口不容错过!
创业学院

2025 年,这些轻创业风口不容错过!

2025-04-23 16:12:47 阅读:4
创业如登山:在试错中寻找路径,在止损中保存火种
创业学院

创业如登山:在试错中寻找路径,在止损中保存火种

2025-04-23 16:06:16 阅读:4
营销内卷时代,如何用 “破格叙事” 撕开流量缺口?
用户研究

营销内卷时代,如何用 “破格叙事” 撕开流量缺口?

2025-04-23 14:45:46 阅读:7
特朗普关税引发美国抢购潮,淘宝强势冲进美区 App Store 前五
数据分析

特朗普关税引发美国抢购潮,淘宝强势冲进美区 App Store 前五

2025-04-23 12:00:52 阅读:8
策略产品经验谈:数据埋点中常踩的坑与避坑指南
产品运营

策略产品经验谈:数据埋点中常踩的坑与避坑指南

2025-04-23 11:46:26 阅读:9