

每次训练大模型,看着GPU账单就心疼!更气人的是,明明花了那么多钱,实际利用率可能还不到5%!
这感觉就像买了辆跑车,结果90%的时间都在等红灯!
但最近,一家疯狂的公司正在改写游戏规则——他们把芯片做到了iPad大小,3年营收暴涨20倍,连OpenAI都砸了100亿美元!
你知道吗?过去40年,计算行业有个铁律:
新的计算需求,终将催生新的计算架构!
PC时代是x86,移动时代是ARM,图形时代是GPU。现在,轮到AI了!
但问题来了:AI的计算方式,和过去完全不同!
过去的计算大多是“局部独立”的,比如图形渲染,每个像素可以各算各的。
但AI模型不一样!它本质上是一个高度耦合的计算网络,数据、参数和计算过程之间需要极其频繁的信息交换。
这就导致了一个根本性转变:AI本质上是一个“通信密集型”的计算问题,而不仅仅是“算力”问题!
GPU的优势在于并行计算,但前提是“任务彼此独立”。
而在AI里,每一步计算都依赖前一步结果,大量时间花在“等数据”!
这种架构上的不匹配,在AI模型的训练和推理阶段暴露无遗!
训练阶段: 单卡不够强,只能把模型拆开,分布到上千张GPU上。但一旦拆开,就必须频繁通信,效率迅速下降,同时系统复杂度和成本飙升!
简单说就是:单卡不够,多卡低效!
推理阶段: 问题更加直观!模型在生成每一个词时,都需要完整地运行一遍整个模型。但由于模型体积过于庞大,无法完整加载到芯片内部的缓存中,计算单元只能不断地从外部内存中搬运数据。
问题在于,这个“搬数据”的过程,远比“算数据”慢!
以一个70亿参数的模型为例,假设每个权重占用16位,那么生成一个词,就需要从内存中搬运约140GB的数据!
而为了生成下一个词,系统必须再次搬运这140GB的数据,如此周而复始!
结果就是,在某些场景下,GPU的实际利用率甚至可能跌至5%以下!
这种高成本、高延迟的架构,怎么可能撑得起未来那些要求毫秒级响应的实时AI应用?
对于这些问题,Cerebras给出的解法,不仅很直接,也很极端:
把芯片做到足够大,大到可以把“算力、内存、带宽”都放进同一块硅片里!
就这样,Cerebras打造了全球首创且唯一的商业化晶圆级处理器——晶圆级引擎(WSE),并声称其第三代AI芯片WSE-3是“史上大批量推向市场的最大、最快AI芯片”!
WSE-3的面积是4.6万平方毫米,接近一块iPad屏幕!而H100只有814平方毫米,两者相差整整57倍!
用创始人Andrew Feldman自己的比喻来说:
“想象一个玻璃杯就是内存,里面装的可乐是数据,而你的嘴巴代表算力。你能喝到可乐的速度,完全取决于吸管的粗细。英伟达GPU的根本问题,就在于这根吸管太细了。而我们的破局之道是——直接把吸管扔掉,端起杯子往嘴里倒!”
这疯狂的尺寸,直接砸出了三个颠覆性的结果:
第一,计算被暴力“集中”了!
WSE-3丧心病狂地塞进了90万个计算核心,是H100的52倍!更恐怖的是,这90万个核心全在一块硅片上,紧紧挨着,压根不需要跨芯片通信!
第二,内存被“拉近”了!
传统GPU依赖HBM,容量大但访问慢;SRAM速度极快但容量小。
Cerebras的做法,是直接把芯片做大到可以放下足够多的SRAM——WSE-3集成了44GB片上SRAM,而H100只有约0.05GB,相差880倍!
这意味着,大模型的参数可以直接“贴脸”放在计算单元旁边,再也不用来回倒腾了!
第三,带宽问题被“消掉”了!
WSE-3的片上内存带宽达到21 PB/s,而H100大约是0.003 PB/s,相差7000倍!片上互连带宽也高出3700倍以上!
在GPU体系里,大量时间花在“搬数据”上。而在WSE里,数据基本不需要离开芯片!
总结起来,其实Cerebras就做了一件事:让数据不再流动,让计算围绕数据发生!
技术再牛,卖不出去也是白搭。Cerebras面临的现实拷问是:谁来掏钱?
答案是,中东土豪和科技巨头!
2022到2025年,公司收入从2460万美元一路增长到5.1亿美元,三年翻了超过20倍!净利润也在2025年首次转正,达到2.38亿美元!
但这钱,最初几乎全是中东老铁砸的!
2024年,阿布扎比的G42贡献了85%的营收;2025年,阿联酋人工智能大学(MBZUAI)和G42联手包揽了87%的收入!
真正的转折点,来自OpenAI!
2026年1月,Cerebras拿下了史诗级大单:2026到2028年,为OpenAI提供高达750兆瓦的算力,总金额超过100亿美元!
不仅如此,OpenAI还倒贴10亿美元,帮Cerebras建数据中心!
这背后的水很深。OpenAI的掌门人Sam Altman,本身就是Cerebras的早期投资人,而且早在2017年,OpenAI就已经盯上了Cerebras的技术!
巨头入场,风向彻底变了!
2026年3月,AWS(亚马逊云)也坐不住了,成为首家吃螃蟹的超大规模云厂商!
AWS的玩法很鸡贼:在推理任务里,用自家的Trainium芯片搞定“理解输入”,然后把“生成输出”这种脏活累活扔给Cerebras的CS-3芯片。两者高速互联,双剑合璧!
据说,这套组合拳的速度,是现有方案的5倍以上!
只要在这个圈子里混,就绕不开那个终极灵魂拷问:
你凭什么干掉英伟达的护城河?
整个AI算力行业都相信一个故事:CUDA生态,就是英伟达坚不可摧的护城河!
但在挑战者Feldman眼里,CUDA的神话,被严重夸大了!
原因是,CUDA在训练侧确实有价值,但在推理侧,几乎不存在锁定!
现在的AI开发,早就被PyTorch统领了,应用层和底层硬件已经脱钩。只要编译器给力,模型在不同硬件之间横跳,根本不是难事!
“从NVIDIA切到Cerebras,再切到别人家,这件事情在推理端并不难。”
相比虚无缥缈的CUDA生态,Feldman看得很透:英伟达真正的护城河,是它那令人绝望的市场份额!
他举了Intel的例子,即便连续犯错,依然能长期占据70%+的市场份额,AMD花了十年,也只拿到20%多!
这意味着,一旦成为默认选项,后来者即使更好,也需要极长时间才能撬动!
放在今天的英伟达身上,这个优势更明显:所有人都在它的体系里学习AI、构建AI,它就是采购的起点!
但Feldman并不绝望。他预测,五年后,英伟达接近100%的垄断份额,可能会跌到50%–60%!
理由很简单:训练市场依然是英伟达的天下,但真正庞大的推理市场正在井喷,而这个市场,对新架构极其渴望!
同时,Feldman也相信另一个暴论:
即使在未来,芯片公司的价值,也将彻底碾压模型公司!
他的逻辑来自一个很经典的比喻,短期市场是“投票机”,长期是“称重机”!
模型公司的优势周期很短,可能只有几个月,领先与被超越在不断切换,很难沉淀长期壁垒!
而芯片不同,它的壁垒在物理层,制造、工艺、供应链、工程能力,这些东西一旦建立,很难被快速复制!
过去几十年,真正长期伟大的公司,大多来自这一层!
金句: 在AI算力的战场上,有时候最大的创新不是把芯片做得更快,而是把数据搬得更少!
互动问题: 你觉得Cerebras能真正挑战英伟达的霸主地位吗?还是这只是一时的技术狂欢?
点赞和分享引导: 如果这篇文章让你对AI芯片的未来有了新思考,别忘了点赞支持!也欢迎分享给身边关心科技趋势的朋友,一起探讨算力革命的下一个风口!