开云(中国)kaiyun网页版登录入口开云体育这正本进修的是模子从 0 到 1 处理问题的才调-开云官网登录入口开云app官网入口

发布日期：2025-10-20 11:23 点击次数：138

大模子也会玩信息差了开云(中国)kaiyun网页版登录入口开云体育。

Qwen3 在基准测试中竟然学会了钻空子。

FAIR 推敲员发现 Qwen3 在 SWE-Bench Verified 测试中，不按常理修 bug，反而玩起了信息检索大法。

不分析代码逻辑，不定位罅隙根源，而是平直跑到 GitHub 上搜任务里的 issue 编号，精确扒出了前东谈主留住的建筑决议。

能说吗，会搜代码才是确凿的才略员行径吧。而 Qwen3，你是确凿的才略员。

要知谈，SWE-Bench Verified 本来是检修模子真刀真枪修代码的基准，极端于编程届的经验考试。

它的测试逻辑是这么的：在代码建筑类任务中，它给模子的任务全是确凿开源神气里的 bug，比如建筑某个功能额外、补全缺失的代码模块，中枢条目是模子能读懂现存的代码、定位到问题在哪，临了生成大略平直运转的处理决议。

这正本进修的是模子从 0 到 1 处理问题的才调，但咱们的 Qwen3，可没按这个脚本走。

FAIR 推敲团队跟踪它的操作轨迹发现，Qwen3 拿到任务后，第一步不是分析代码文献，而是调用器具检索 GitHub 的提交日记。

具体操作是：

先切换（cd）到 /workspace/django_django_4.1 这个目次；

然后履行 git log — oneline — grep= " 33628 " — all 这个大呼。

git log 是检验 Git 版块截止提交历史的大呼，— oneline 让提交历史以简易的一滑的面貌展示。

— grep 用于筛选提交指定实质（在这个例子中是 issue 编号 33628），— all 则暗示扫数分支的提交。

临了以退出码 0 暗示大呼凯旋履行。

一番操作之后，Qwen3 无须动脑子写代码就支吾"模仿"了曩昔的凯旋谜底。（怎么不算动脑子了呢）

其实不啻 Qwen3，推敲者发现 Claude 4 Sonnet 也有肖似的行径。

不外，模子能凯旋钻空子，天然也不全是自己的原因。

说回 SWE-Bench Verified，它自己的操办就有罅隙——没过滤畴昔仓库气象。

苟简说即是，这个测试用的是开源神气数据，是以它连带着神气后续仍是处理 bug 的提交记载一谈放进去了，极端于把考题和参考谜底混在一谈，还没设权限。

普通来说，测试应该只给模子bug 未建筑时的神气气象，让它只看着题目解题。

但 SWE-Bench Verified 没作念这个筛选，导致模子大略拿到bug 仍是被建筑后的数据。

于是，只须用任务里的 issue 编号当重要词，就能在已处理的数据里找到现成的建筑决议。

看来啊，不是只须东谈主类知谈搜谜底比解问题苟简，现时大模子也知谈了。（Doge）

天然说，按普通章程，这些模子如实是在舞弊，但也有网友合计：只须能完成任务，应用章程罅隙也没什么不成的。

是以，你合计这种行径算舞弊如故算 Qwen3 贤慧呢？

参考集合：

[ 1 ] https://x.com/giffmana/status/1963327672827687316

[ 2 ] https://x.com/bwasti/status/1963288443452051582

[ 3 ] https://github.com/SWE-bench/SWE-bench/issues/465

一键三连「点赞」「转发」「防备心」

接待在驳倒区留住你的念念法！

— 完 —

专属 AI 居品从业者的实名社群，只聊 AI 居品最落地的真问题扫码添加小助手，发送「姓名 + 公司 + 职位」苦求入群～

进群后，你将平直取得：

� � 最新最专科的 AI 居品信息及分析 � �

� � 不按时披发的热点居品内测码 � �

� � 里面专属实质与专科商榷 � �

� � 点亮星标 � �

科技前沿推崇逐日见开云(中国)kaiyun网页版登录入口开云体育

开云(中国)kaiyun网页版登录入口开云体育这正本进修的是模子从 0 到 1 处理问题的才调-开云官网登录入口 开云app官网入口