开云官网登录入口 开云app官网入口

开云(中国)kaiyun网页版登录入口开云体育o3 以致将蔓延擢升了跳跃9000倍!总体而言-开云官网登录入口 开云app官网入口
栏目分类
热点资讯

开云(中国)kaiyun网页版登录入口开云体育o3 以致将蔓延擢升了跳跃9000倍!总体而言-开云官网登录入口 开云app官网入口

发布日期:2025-10-20 08:09    点击次数:142

AI 自动生成的苹果芯片 Metal 内核开云(中国)kaiyun网页版登录入口开云体育,比官方的还要好?

Gimlet Labs 的最新筹谋暴露,在苹果确立上,AI 不仅能自动生成 Metal 内核,还较基线内核收场了87%的 PyTorch 推理速率擢升。

更惊东说念主的是,AI 生成的 Metal 内核还在测试的 215 个 PyTorch 模块上收场了平均1.87 倍的加快,其中一些责任负载以致比基准快了数百倍。

真就 AI Make 苹果 AI Great Again?

用 AI 为苹果确立生成内核

先说论断:通过 AI 自动收场内核优化,可以在无需修改用户代码、无需新框架或移植的情况下,权贵擢升模子性能。

为了阐明这少量,筹谋东说念主员登第了来自 Anthropic、DeepSeek 和 OpenAI 的 8 个顶尖模子,让它们为苹果确立生成优化的 GPU 内核,以加快 PyTorch 推理速率。

至于为什么是苹果?别问——问就各人最大硬件供应商(doge)

接下来,让咱们望望筹谋东说念主员是何如作念的:

实验缔造

当先,在模子礼聘方面,参与测试的模子包括:claude-sonnet-4、claude-opus-4;gpt-4o、gpt-4.1、gpt-5、o3;deepseek-v3、deepseek-r1。

其次,在测试输入方面,筹谋使用了 KernelBench 数据聚合界说的 PyTorch 模块,并登第了其中 215 个模块进行测试。

这些被登第的模块被分歧为三个品级,分别是第一级的浅易操作(如矩阵乘法、卷积);第二级是由第一级操作构成的多操作序列;第三级是竣工的模子架构(如 AlexNet、VGG)。

再次,在评估概念方面,筹谋东说念主员主要存眷两个概念:一是 AI 生成内核的正确性,二是其相较于基准 PyTorch 的性能擢升。

终末,筹谋使用的苹果硬件为Mac Studio ( Apple M4 Max chip ) ,Baseline 为PyTorch eager mode(划要点,一会要考)

实验测试

在上述准备收场后,筹谋团队张开了测试。

测试经过如下:

罗致领导(prompt)和 PyTorch 代码;

生成 Metal 内核;

评估其是否在正确性(correctness^4)上与基准 PyTorch 一致;

若是编译失败或不正确,则将造作信息回传给智能体重试,最多允许重试 5 次。

如上所说,筹谋者当先存眷 AI 生成内核的正确性。

实验标明,正确性会跟着尝试次数的增多而擢升。以o3为例:第一次尝试就有约60%的概率得到可用收场,到第5 次尝试时可用收场比例达到94%。

此外,筹谋还发现推理模子相等擅长跨层级生成正确的内核,尽管非推理模子恐怕也能作念到这少量。

那么,AI 生成的内核进展若何呢?

实验遏抑绝顶惊艳,险些每个模子王人生成了一些比基准更快的内核。

举例,GPT-5 在一个 Mamba 25 景况空间模子上收场了4.65 倍的加快,其主要通过内核会通(kernel fusion) 来减少内核调用的支出,并改善内存看望模式。

在一些案例中,o3 以致将蔓延擢升了跳跃9000倍!

总体而言,GPT-5 平均可以带来约 20% 的加快,其他模子则逾期。

不外,GPT 并非是门门最优,筹谋东说念主员发现 GPT-5 在34%的问题上生成了最优解。

但在另外30%的问题上,其他模子生成的解比 GPT-5 更优!

这就意味着莫得单一模子能在通盘问题上王人生成最优内核。

因此,若是把多个模子组合起来,就能更粗略率生成最优内核。

于是乎,筹谋东说念主员又张开了智能体群体实验(Agentic Swarm)。

智能体群体实验

果如其言,相较于单个模子,智能体群体政策收场了更高的性能擢升。

与 GPT-5 比较,智能体群体在各层级平均加快31%,在 Level 2 问题上加快42%。

在险些莫得高下文信息的情况下(仅有输入问题和领导),智能体群体就如故进展得绝顶可以。

接下来,筹谋东说念主员尝试为智能体提供更多高下文,以获取更快的内核。

这里主要包含两个稀奇的信息开头:

CUDA 收场(由于 Nvidia GPU 的普及,频繁可以获取优化过的 CUDA 参考收场);

M4 上 gputrace 的性能分析信息。 ( 包含 Apple Script 拿获的 gputrace 摘录、内存和技艺线视图 )

在具体的实施规范中,筹谋者先将截图处置任务分拨给一个子智能体(subagent),让它为主模子提供性能优化领导。

在收到领导后,主智能体先进行一次初步收场,然后对其进行性能分析和计时。

随后,再将截图传给子智能体以生成性能优化领导。

实验标明,在高下文竖立方面也莫得所谓的"单一最好"决议。

不外,在具体的性能加快方面,加入这些稀奇高下文收场了平均 1.87 倍的加快,相较于庸俗智能体仅收场的 1.31 倍的平均加快,稀奇高下文将擢升幅度提高了三倍!

有擢升,但看跟谁比

为了更深刻地盘问,咱们有必要先转头一些配景学问。

在 PyTorch 中,咱们频繁会调用如 Sequential、ReLU 这么的函数。

在具体的试验中,PyTorch 会先将函数拆解为张量运算(矩阵乘法、加法等),再交给 GPU 试验。

这时就需要 GPU 内核(kernel)讲求把这些数学操作转成 GPU 可意会的初级并行指示。

因此,在某种进程上,咱们可以说 GPU 内核就像 C 编译器相通,其性能关于运算成果至关首要。

而上头这篇责任所作念的,等于让本来必须由工程师手写的内核优化交给 AI 自动完成,并测试它的性能。

不外,问题就来了。

无人不晓,苹果硬件并不像英伟达的 CUDA 相通,对 PyTorch 有很好的优化。

因此,这篇筹谋平直拿 MPS 后端原生收场和 AI 生成的内查对比是有失公允的。

不少眼尖的网友亦然发现并指出了这少量:著作里所用的 baseline 是 eager mode,这频繁只用于熟谙调试或概念计较,不会被确凿部署到确立上。

在确凿部署中,一般会先把模子导出为 ONNX,再编译成确立原生模式(Metal、CUDA 或 ROCm 等),这么成果会比平直用 PyTorch eager mode 高好多。

是以,不管内核是工程师手写,如故 AI 自动生成,经过优化的 GPU 内核王人会比未优化的 PyTorch 推理快得多。

因此,拿调试过的内核和 eager 比,若干有点奇怪。

对此,筹谋东说念主员报酬说念:

这篇责任不是为了展示部署环境的最终性能极限,而是展示 AI 自动生成内核的可行性。

筹谋的概念是在内核工程方面获取东说念主类内行一定进程的效益,而无需开导东说念主员的稀奇参预,但愿通过 A 将部分经过自动化。

是以,要点不在于性能擢升,而在原型考证。

对此,你何如看?

参考纠合

[ 1 ] https://gimletlabs.ai/blog/ai-generated-metal-kernels-content-fn-4

[ 2 ] https://news.ycombinator.com/item?id=45118111

[ 3 ] https://en.wikipedia.org/wiki/Compute_kernel

[ 4 ] https://github.com/ScalingIntelligence/KernelBench/

一键三连「点赞」「转发」「留神心」

接待在琢磨区留住你的念念法!

—  完  —

专属 AI 居品从业者的实名社群,只聊 AI 居品最落地的真问题   扫码添加小助手,发送「姓名 + 公司 + 职位」央求入群~

进群后,你将平直获取:

  � � 最新最专科的 AI 居品信息及分析 � �  

  � �   不按期披发的热点居品内测码 � �

  � �   里面专属骨子与专科盘问 � �

� � 点亮星标 � �

科技前沿进展逐日见开云(中国)kaiyun网页版登录入口开云体育



首页 | 资讯 | 娱乐 | 新闻 | 旅游 | 汽车 | 电影 |

Powered by 开云官网登录入口 开云app官网入口 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024