找工位
空间入驻
小程序

全球开发者疯抢!这个AI模型3天登顶,凭什么让GPT都紧张?

2026-02-11
文章转载自"淘工位"

别再用那些「卡壳」的AI了!这个模型让Agent真正「飞」起来

你是不是也受够了那些动不动就「失忆」的AI助手?

写代码写到一半突然「卡壳」,多轮对话中途「断片」,处理复杂任务时幻觉频出……这些痛点,每一个开发者都深有体会!

但最近,全球AI圈发生了一件大事——一个中国团队的开源模型,竟然在OpenRouter上3天登顶全球趋势榜第一!

不是靠营销,不是靠跑分,而是全球开发者用真金白银的Token「投票」选出来的!

这到底是个什么神仙模型?今天我就带你一探究竟!

💡 开发者集体「用脚投票」:这个模型凭什么火遍全球?

2月2日,阶跃星辰发布了开源模型Step 3.5 Flash,结果直接引爆了全球AI圈!

  • 首日冲上OpenRouter Fastest Models全球最快模型之列
  • 仅用2天就登顶Trending全球趋势榜第一!
  • 全球开发者疯狂调用,用实际Token为它「站台」

你可能要问:OpenRouter是什么?

简单说,它就是全球AI模型的「真实战场」!这里聚集了几乎所有主流开源和闭源模型,榜单数据完全来自开发者和用户的真实API调用——没有水分,全是实战!

而Trending榜更狠:它不关心「参数最大」或「跑分最强」,只关心一个核心问题:

哪个模型真正好用?

Step 3.5 Flash能在这个残酷的战场上登顶,含金量有多高,你品,你细品!

⚡ 1960亿参数「智囊团」,却只收11B的钱?

最让开发者兴奋的是,Step 3.5 Flash玩了一手「降维打击」!

它采用了稀疏混合专家(MoE)架构,总参数量达到1960亿,但处理每个Token时,系统会动态选择最适合的「专家」——

实际激活参数只要110亿!

这是什么概念?

想象一下:你有一个196人的顶尖专家团队,但每次干活,系统都能精准挑出最专业的11个人上场!

结果就是:你付的是11B模型的时间和成本,得到的却是196B模型的思考深度!

性能直接媲美GPT-5.2 xHighGemini 3 Pro这些顶级模型!

更绝的是,它还通过3:1滑动窗口与全局注意力混合架构,实现了256K长上下文的高效处理——显存占用大幅降低,长文档处理再也不怕「爆内存」了!

🚀 每秒350个Token!多轮推理从此不「卡壳」

如果你用过Agent,一定懂这种痛:

  • 多轮工具调用时,模型突然「失忆」
  • 复杂逻辑推理中途「卡顿」
  • 生成速度慢得像「挤牙膏」

Step 3.5 Flash直接把这些痛点全解决了!

测试显示,它支持100–300 TPS(每秒Token数)的生成吞吐量,部分场景下甚至能达到350 TPS

对比去年主流水平只有50-100 TPS,这简直是「火箭级」的提升!

关键秘诀在于MTP-3(三路多Token预测)技术:

传统模型像「蹦豆子」——说一个词,想一个词

而MTP-3让模型在生成当前内容时,就能同时预测后续多个Token!

这不仅仅是速度提升,更是思维方式的革命——让AI在「开口」之前,就已经预判了后面几步的路!

在Agent场景下,这种「连贯性」太重要了:

  • 复杂任务执行不再断断续续
  • 多轮对话保持完整记忆
  • 工具调用流畅如丝

🌟 实测惊艳:从游戏开发到操作系统,全能选手!

光说不练假把式,来看看真实测试结果:

YouTube科技博主Bijan Bowen做了深度实测,结果让人震惊!

Step 3.5 Flash不仅能准确还原瑞典设计与纽约金融风格的差异,还能:

  • 从字体、布局到交互逻辑持续迭代优化
  • 生成功能完备的浏览器操作系统(WebOS)
  • 成功运行经典游戏「Memory Game」——这是测试的多个模型中唯一能做到的!

更厉害的是,Discord上有网友在128GB内存的Mac(M3 Max)上本地部署运行,实际效果远超预期:

  • 性能达到硬件理论效率的70%
  • 模型幻觉率极低,输出可靠稳定
  • 中英等多语言混用场景下错误率很低

这意味着什么?

Step 3.5 Flash不仅强大,还好部署、成本低、表现稳定——这才是开发者真正需要的「生产力工具」!

🔧 Agent时代,我们需要什么样的「发动机」?

阶跃星辰CTO朱亦博在分享中提到一个关键洞察:

不同智能阶段需要不一样的基模结构!

L1 Chatbot时代的设计,根本不适用于L2 Reasoner(推理模型),而L3 Agent时代更需要全新的基模结构!

Step 3.5 Flash的训练目标从一开始就锚定了:

  • 足够强的逻辑推理能力
  • 真正可用的长上下文高效处理
  • 快速的推理生成速度

这些直接决定了模型是否「可用」、「好用」!

因为在Agent场景下,用户不再关注输出过程,而是看重:

  • 完成任务的速度
  • 执行的准确性
  • 运行的稳定性

Bijan Bowen在测试AI生成飞行模拟、赛车游戏时发现:

Step 3.5 Flash给出的初始版本虽然有瑕疵,但通过提示词反馈后,模型能在原有基础上迭代优化,游戏开发质量呈现爆发式提高!

这就是自我改进能力——Agent时代的核心竞争力!

💪 为什么开发者集体选择Step 3.5 Flash?

OpenRouter上聚集了全球最懂AI的开发者,他们见多了「高分低能」的模型,早就练就了火眼金睛!

比起跑分数据和脱离实际的测试,他们最关心的是:

  • 模型在AI应用和系统中跑起来的实际表现
  • Agent场景下的稳定性和连续性
  • 深度研究、自动化工作流中的可靠性
  • 部署的灵活性和成本控制

在Agent、深度研究、自动化工作流等场景中,模型迁移成本并不低,开发者和用户集体选择Step 3.5 Flash,这足以说明一切!

他们的选择逻辑很简单:

  • 不要「炫技」的华丽外壳
  • 只要「好用」的生产力工具
  • 能真正提高工作效率
  • 能稳定处理复杂任务

🎯 AI的未来是「好用」,不是「好看」

从2022年底生成式AI爆发以来,我们已经见证了太多变化:

  • 大模型改变了内容生产
  • 改变了信息获取方式
  • 甚至改变了人与软件的交互

但Agent时代的到来,带来了根本性的不同:

我们不再只是和AI「聊天」,而是把生活、工作中的实际任务交给AI协作甚至完成!

这时候,比起AI「说得对不对」,我们更看重AI「干得好不好」!

不管是:

  • 跨平台对比Mac Mini(M4)的价格
  • 对大型代码库进行智能修改
  • 处理复杂的跨平台工作流

Step 3.5 Flash的成功证明了一件事:

AI的成功不该取决于它看起来有多聪明,而取决于它能帮我们提高多少效率!

在这个意义上,Step 3.5 Flash的火爆更能说明——大模型必须褪去「炫技」的华丽外壳,变成一种真正好用的生产力!

真正的智能,不是能回答多少问题,而是能解决多少实际问题。

你在使用AI Agent时遇到过哪些「坑」?最希望AI在哪些方面提升?

欢迎在评论区分享你的经历和期待!如果觉得这篇文章对你有帮助,别忘了点赞+分享,让更多开发者看到这个「宝藏模型」!

让我们一起拥抱Agent时代,用更好的工具创造更大的价值!