DeepSeek偷偷发布新技术：只用1/3的token，碾压GPT-4o和Gemini！

2026-05-02 05:04:55

你有没有遇到过这种崩溃瞬间——

明明给AI发了一张高清照片，它也能看懂画面里有什么，但你问“左边那只狗是什么品种”，它却开始胡言乱语。

不是你图不够清楚，而是模型根本不知道你指的“那只狗”到底是哪只！

五一假期前一天，DeepSeek突然扔出一份视觉多模态技术报告。点开之前，我以为又是卷分辨率的老套路。结果看完直接傻眼——他们压根没跟风拼像素，而是走了一条所有人都没想到的路。

01 视觉推理的“指着说”革命

💡 死穴：模型看得清，但永远“指不准”

人类看图可以用手指去标记。“这个人是张三，那个人是李四”。

但模型呢？它只能说“左边那个”“上面那个”“穿红衣服那个”。一旦画面复杂起来——比如照片里有十几只狗——语言指代立刻崩溃。

DeepSeek在报告里提出了一个扎心的问题，叫“引用鸿沟”。什么意思？

就是模型明明看清楚了图像里的每个细节，但在推理过程中，它没办法稳定地指向同一个视觉对象。它说“那只狗”，但你不知道它说的是哪只。

更绝的是，你让AI数一下照片里有几只狗。它数着数着就忘了自己数过哪些、还没数哪些。结果给你报个“7只”，其实一共才5只。

这就是多模态模型最容易被忽略的死穴——不是看不见，是指不准。

🌟 DeepSeek的骚操作：给模型一根“赛博手指”

DeepSeek的解决方案，简单到让人拍大腿：

那就给模型一根“手指”不就完了？

他们把边界框（bounding boxes）和点（points）这两个最基础的视觉标记，直接变成了模型思考时的“最小单位”。

什么意思？

以前的多模态模型也能画框标注物体，但那只是在最后给你看个结果——就像考试只交答案，不写解题过程。

DeepSeek完全不同。模型在思考的时候，不只是用语言说“我看到了一只狗”，还同时输出“我看到了一只狗，它在这里：[[x1,y1,x2,y2]]”。

他们管这叫“边推理边指向”。

模型的每一步思考都锚定在图像的具体坐标上。它不会迷路，不会搞混，不会“指东打西”。每个视觉对象都有明确的空间锚点，推理过程变得可追踪、可验证。

⚡ 和OpenAI的路子完全不一样

OpenAI在o3、o4-mini里搞的是“thinking with images”，让图像进入推理链，模型可以裁剪、放大、旋转图片。

DeepSeek则更“符号化”——让坐标直接进入思维链。模型在推理文本里显式写出边界框和点的坐标。

一个黑箱操作，连结果都不给你看明白。一个全程透明，每一步都让你知道你指的是哪个玩意儿。

你更信任哪个？

02 碾压竞品的秘密：1/3的token，10倍的效率

🔥 数据太炸裂了

DeepSeek报告里有一张对比图，我看了直接头皮发麻。

同样是处理一张800×800分辨率的图像：

Gemini-3-Flash：约1100个token
Claude-Sonnet-4.6：约870个
GPT-5.4：约740个
Qwen3-VL：约660个
DeepSeek：约361个！

更狠的是KV缓存。Gemini要保留上千个条目，DeepSeek只保留约90个。

直接碾压！

⚙️ 怎么做到的？

他们用了一个叫“压缩稀疏注意力”（Compressed Sparse Attention, CSA）的机制。

我给你翻译一下：

你看一张全家福，不会说“从左数第237个像素开始有一块红色区域”。你会直接说“左边是我妈，右边是我爸”。

DeepSeek的ViT先把图像压成更少的视觉token，CSA再把这些token在KV缓存中的表示进一步压缩。

一张756×756的图像，原始像素是571536个。经过ViT处理后变成2916个patch token。再压缩成324个视觉token。最后CSA再压4倍，只保留81个KV缓存条目。

压缩比：7056倍！

💰 这到底意味着什么？

第一，推理速度直接起飞。图像token越少，每次生成新token时计算量就越小。对于机器人视觉、自动驾驶、实时视频分析，这就是生死线。

第二，内存占用断崖式下降。KV缓存是大模型推理的瓶颈。DeepSeek只需要90个条目，意味着同样的硬件能处理更多图像，支持更多并发用户。很多公司的多模态模型在实验室表现很好，一到实际部署就崩——成本太高了。DeepSeek的效率优势在规模化部署时会被无限放大。

第三，训练成本直线下降。更少的视觉token意味着更小的计算图，更快的训练速度，更低的硬件要求。

DeepSeek从R1到V4再到现在的视觉多模态，一直有一条暗线：真正的智能不在于算力，而在于对问题本质的理解。

当你真正理解了视觉推理需要什么，你就不需要那么多token。效率只是证明这个范式对了的副产品。

03 清醒的反思：DeepSeek自己承认的问题

⚠️ 触发词依赖

DeepSeek在报告里坦然承认：目前的“用视觉基元思考”能力，需要显式的触发词才能激活。

也就是说，模型还不能自主决定“什么时候该画框、什么时候该打点”。你得先告诉它“用视觉基元”，它才会用。

理想状态应该是什么？你问“数一数图里有几只狗”，模型应该自己意识到：这事儿靠语言不行，我得开启视觉基元模式。

DeepSeek还没实现这个“元认知层”，但他们已经明确了方向。

🎯 分辨率限制

为了控制token数量，DeepSeek限制了视觉token的范围在81到384之间。这在大部分场景下很合理，但遇到医疗影像分析、工业质检这种需要极高精度的任务，就会遇到瓶颈。

DeepSeek说这个问题可以通过整合现有的高分辨率方法来解决。我觉得他们以后的混合方案大概是这样：常规任务用压缩视觉表征，需要细粒度分析时再动态调用高分辨率。

🧠 跨场景泛化

目前测试主要是在合成数据上做的。迷宫是算法生成的，路径追踪曲线是程序化绘制的。当模型遇到真实世界里的拓扑推理问题——比如在真实地图上规划路径、在复杂管线图里追踪连接关系——表现会不会下降？

这是个没有答案的问题。但DeepSeek能在报告里公开谈论这些问题，说明他们对工作有清醒的认知。这可能比给出完美答案更有价值。因为真正推动行业进步的，往往不是答案，而是问题。

当所有巨头都在堆算力、卷分辨率的时候，DeepSeek选择问了一个更底层的问题：模型真的知道你在说什么吗？

这个问题，可能比答案更重要。

💬 你觉得AI的视觉能力，到底是“看得更清”重要，还是“指得更准”重要？评论区聊聊你的看法！

👍 如果觉得这篇文章有启发，记得点赞+在看+分享给你的朋友们，让更多人看到不一样的技术视角！

上一篇：轻到"忘记"它的AI眼镜来了！14.9克颠覆行业，100+镜框任选

下一篇：老外开始“反向代购”中国货？有人靠这招月入40万，秘密太惊人！

热点资讯

历届鲁迅文学奖获奖作品名单

2024-09-02 00:00:00

【快讯】广州市委常委、黄埔区委书记陈杰一行调研蜜蜂科技BEEPLUS

2023-09-01 00:00:00

12年，从22亿到超过520亿，海底捞谋局千亿背后的战略解码

2024-05-16 00:00:00

2025年深圳注册公司全流程指南：一步到位

2025-05-20 00:00:00

【2024新一线城市名单出炉】三大角度解析《新一线城市魅力排行榜》榜单

2024-06-07 00:00:00

超过海尔、格力上千亿，3737亿的美的，全球第一背后的战略解码（万字深度长文）

2024-10-04 00:00:00

全网开骂的武汉“孕妇选美比赛”，撕开了当下社会最离谱的一幕

2024-11-18 00:00:00