DeepSeek突放大招！7056倍压缩让AI学会"用手指点着思考"，GPT-5.4被反超17%

2026-05-01 08:37:57

你有没有遇到过这种抓狂时刻？

给AI一张人头攒动的照片，问它“图里有多少人”，它信誓旦旦报个数，结果差了十万八千里。再问它“左边那个红色电容在右边电感的哪一侧”，它开始支支吾吾、前后矛盾，气得你想摔手机！

别急着骂AI蠢，问题不在它“看”得清不清，而是它根本不知道怎么“指”着说！

DeepSeek又双叒叕放新招了！

就在五一长假前，DeepSeek联合北大、清华发布了一项炸裂技术——“Thinking with Visual Primitives”（以视觉原语思考）。

项目和技术报告已经直接在GitHub上开源了！不是画饼，是真家伙！

💡 戳中所有大模型的“死穴”

论文上来就甩出一个让人拍大腿的问题：现在的多模态大模型，能“看见”，但真不一定能“想清楚”！

作者们把这个问题命名为“Reference Gap”（指代鸿沟）。

啥意思？想象一下，你给一个看不见你屏幕的朋友描述棋盘：“左边那个棋子要吃掉中间偏右那个。”朋友一脸懵：你说的是哪两颗？

这就是AI每天面对的真实困境！

传统思维链（CoT）全靠自然语言，但自然语言太“水”了——“左边那个大的”、“靠近中央的红色物体”……在密集场景里根本对不上号！模型的注意力越说越飘，最后彻底跑偏。

过去学术界怎么解决的？让AI“看得更清楚”——高分辨率切割、动态分块。但这解决的是“感知鸿沟”，不是“指代鸿沟”。

看见不等于能说清楚自己在看哪个！

🌟 核心创新一：把坐标变成AI的“手指”

DeepSeek这波操作太聪明了！

传统做法中，边界框只是输出结果：AI想完了，告诉你“目标在左上角[100,200,300,400]”。这是事后标注，不是思考工具。

DeepSeek反着来！让模型在推理过程中，每提到一个视觉对象，就同步输出坐标！

来，感受一下AI现在的“内心戏”：

“扫描图片找熊，找到一只 <|ref|>熊<|/ref|><|box|>[[452,23,804,411]]<|/box|>，它正在爬树，不在地面上，排除。再往左下看，找到另一只 <|ref|>熊<|/ref|><|box|>[[50,447,647,771]]<|/box|>，站在岩石边缘，符合条件。”

看到没？坐标不再是答案，而是推理过程中消除歧义的“锚点”！就像人类数东西时会一个接一个点过去，逻辑链被钉在图片的物理坐标上，想漂移都难！

两种“原语”任你选：

边界框（<|box|>）：需要定位和尺寸信息的对象
点坐标（<|point|>）：迷宫轨迹、曲线路径等抽象空间指代

⚡ 核心创新二：7056倍压缩！少就是多

这组数字太震撼了，我给您算笔账：

一张756×756的图，传统方案需要大量视觉token喂给语言模型。DeepSeek的流程是这样的：

👉 图片 → ViT处理 → 2916个图像块token
👉 3×3空间压缩 → 合并为324个token
👉 压缩稀疏注意力（CSA）机制 → KV缓存再压缩4倍 → 最终只剩81个视觉KV条目！

从原始像素到最终缓存，整体压缩比：7056倍！

对比一下：同样处理一张800×800的图，Claude Sonnet 4.6需要约870个KV缓存条目，Gemini-3-Flash需要约1100个，DeepSeek只要90个左右！

核心逻辑很硬核：精确的空间指代能力，可以弥补视觉token不足的问题。AI不需要“看更多”，只需要“指更准”！

🎯 核心创新三：用“特训”把AI练成火眼金睛

光有架构还不够，训练数据才是灵魂！

团队爬了近10万个目标检测数据集，经过两轮严格筛选，只留下约3.17万个高质量数据源，生成了超过4000万条训练样本。

更精彩的是四类专项“特训任务”：

🚀 计数训练

粗粒度（“图里多少人”）：学习“批量锁定”——一次性框出所有候选对象再数
细粒度（“穿蓝衣服的有几个”）：逐一扫描、逐一核对属性

🚀 空间推理

利用GQA和CLEVR数据集生成多跳推理样本，强迫模型每一步都得用边界框锁定对象

🚀 迷宫导航（46万条样本！）

用DFS、Prim和Kruskal算法生成矩形、圆形、六边形三种迷宫，甚至专门设计了“看似有解实则无解”的迷宫来提升鲁棒性！AI需要用点坐标记录每一步探索轨迹，回溯时也要标记已排除路径。

🚀 路径追踪（12.5万条样本）

多条贝塞尔曲线交叉缠绕，要求模型追踪指定起点到达终点。核心挑战是“交叉歧义消解”——两条线交叉时，不能靠颜色取巧（故意设计了所有曲线同色的测试版本），必须判断哪条才是目标曲线的延续！

🔥 实验结果：打脸所有前沿模型

在11个基准测试上，这模型把Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、Qwen3-VL-235B等主流模型挨个碾压了一遍！

计数任务

Pixmo-Count：DeepSeek 89.2% vs GPT-5.4 76.6% vs Claude 68.7%
细粒度计数：88.7%，超Qwen3-VL的87.2%，排名第一

空间推理

MIHBench 85.3%、SpatialMQA 69.4%，均排名第一

最炸裂的差距在这里👇

迷宫导航

DeepSeek 66.9% 🏆
GPT-5.4 50.6%
Gemini-3-Flash 49.4%
Claude Sonnet 4.6 48.9%

所有前沿模型只能答对一半，DeepSeek直接提升了约17个百分点！

路径追踪

DeepSeek 56.7% 🏆
GPT-5.4 46.5%
Gemini-3-Flash 41.4%

差距同样悬殊！

论文很诚实地说：“所有前沿模型在拓扑推理任务上均表现欠佳，说明多模态大模型的推理能力仍有相当大的提升空间。”

💭 这只是一个开始

当然，论文也没藏着掖着，承认了几个短板：

⚠️ 需要明确的“触发词”才会启动视觉原语机制——还不能自主判断什么时候该“用手指”
⚠️ 极细粒度场景下，坐标偶尔不够精准
⚠️ 复杂拓扑推理的跨场景泛化能力有限

但这篇论文的意义，远不止刷几个榜单。

它提出了一个在此之前并非主流的问题——“推理过程中语言指代的歧义性是多模态模型的根本瓶颈之一”。

主流方向一直在卷更大的模型、更高的分辨率、更多的训练数据。DeepSeek给出了另一条路：不是让AI“看更多”，而是让AI“指更准”，用坐标代替语言描述，用空间锚点稳定逻辑链。

这就像给多模态推理增添了一种人类与生俱来、但AI一直缺失的思考姿势——用手指点着思考。

当所有人在卷视力时，DeepSeek教会了AI“用手去指”。这不仅是技术的突破，更是认知方式的革新。

👉 你觉得AI的“指代鸿沟”能靠更大模型彻底解决，还是需要类似“视觉原语”这样的新型思维范式？评论区聊聊你的看法！

如果觉得有收获，点个赞和在看，转发给身边关心AI技术本质的朋友吧！

上一篇：一季度GDP排名大洗牌！江西、重庆、贵州逆袭，这3个省却掉队了

下一篇：没有了

热点资讯

历届鲁迅文学奖获奖作品名单

2024-09-02 00:00:00

【快讯】广州市委常委、黄埔区委书记陈杰一行调研蜜蜂科技BEEPLUS

2023-09-01 00:00:00

12年，从22亿到超过520亿，海底捞谋局千亿背后的战略解码

2024-05-16 00:00:00

2025年深圳注册公司全流程指南：一步到位

2025-05-20 00:00:00

【2024新一线城市名单出炉】三大角度解析《新一线城市魅力排行榜》榜单

2024-06-07 00:00:00

超过海尔、格力上千亿，3737亿的美的，全球第一背后的战略解码（万字深度长文）

2024-10-04 00:00:00

全网开骂的武汉“孕妇选美比赛”，撕开了当下社会最离谱的一幕

2024-11-18 00:00:00