你的位置:开云官网登录入口 开云app官网入口 > 新闻 >
开云(中国)kaiyun网页版登录入口开云体育这正本进修的是模子从 0 到 1 处理问题的才调-开云官网登录入口 开云app官网入口
发布日期:2025-10-20 11:23 点击次数:130
大模子也会玩信息差了开云(中国)kaiyun网页版登录入口开云体育。
Qwen3 在基准测试中竟然学会了钻空子。
FAIR 推敲员发现 Qwen3 在 SWE-Bench Verified 测试中,不按常理修 bug,反而玩起了信息检索大法。
不分析代码逻辑,不定位罅隙根源,而是平直跑到 GitHub 上搜任务里的 issue 编号,精确扒出了前东谈主留住的建筑决议。
能说吗,会搜代码才是确凿的才略员行径吧。而 Qwen3,你是确凿的才略员。
要知谈,SWE-Bench Verified 本来是检修模子真刀真枪修代码的基准,极端于编程届的经验考试。
它的测试逻辑是这么的:在代码建筑类任务中,它给模子的任务全是确凿开源神气里的 bug,比如建筑某个功能额外、补全缺失的代码模块,中枢条目是模子能读懂现存的代码、定位到问题在哪,临了生成大略平直运转的处理决议。
这正本进修的是模子从 0 到 1 处理问题的才调,但咱们的 Qwen3,可没按这个脚本走。
FAIR 推敲团队跟踪它的操作轨迹发现,Qwen3 拿到任务后,第一步不是分析代码文献,而是调用器具检索 GitHub 的提交日记。
具体操作是:
先切换(cd)到 /workspace/django_django_4.1 这个目次;
然后履行 git log — oneline — grep= " 33628 " — all 这个大呼。
git log 是检验 Git 版块截止提交历史的大呼,— oneline 让提交历史以简易的一滑的面貌展示。
— grep 用于筛选提交指定实质(在这个例子中是 issue 编号 33628),— all 则暗示扫数分支的提交。
临了以退出码 0 暗示大呼凯旋履行。
一番操作之后,Qwen3 无须动脑子写代码就支吾"模仿"了曩昔的凯旋谜底。(怎么不算动脑子了呢)
其实不啻 Qwen3,推敲者发现 Claude 4 Sonnet 也有肖似的行径。
不外,模子能凯旋钻空子,天然也不全是自己的原因。
说回 SWE-Bench Verified,它自己的操办就有罅隙——没过滤畴昔仓库气象。
苟简说即是,这个测试用的是开源神气数据,是以它连带着神气后续仍是处理 bug 的提交记载一谈放进去了,极端于把考题和参考谜底混在一谈,还没设权限。
普通来说,测试应该只给模子bug 未建筑时的神气气象,让它只看着题目解题。
但 SWE-Bench Verified 没作念这个筛选,导致模子大略拿到bug 仍是被建筑后的数据。
于是,只须用任务里的 issue 编号当重要词,就能在已处理的数据里找到现成的建筑决议。
看来啊,不是只须东谈主类知谈搜谜底比解问题苟简,现时大模子也知谈了。(Doge)
天然说,按普通章程,这些模子如实是在舞弊,但也有网友合计:只须能完成任务,应用章程罅隙也没什么不成的。
是以,你合计这种行径算舞弊如故算 Qwen3 贤慧呢?
参考集合:
[ 1 ] https://x.com/giffmana/status/1963327672827687316
[ 2 ] https://x.com/bwasti/status/1963288443452051582
[ 3 ] https://github.com/SWE-bench/SWE-bench/issues/465
一键三连「点赞」「转发」「防备心」
接待在驳倒区留住你的念念法!
— 完 —
专属 AI 居品从业者的实名社群,只聊 AI 居品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」苦求入群~
进群后,你将平直取得:
� � 最新最专科的 AI 居品信息及分析 � �
� � 不按时披发的热点居品内测码 � �
� � 里面专属实质与专科商榷 � �
� � 点亮星标 � �
科技前沿推崇逐日见开云(中国)kaiyun网页版登录入口开云体育