找工位
空间入驻
小程序

DeepSeek突放大招!7056倍压缩让AI学会"用手指点着思考",GPT-5.4被反超17%

2026-05-01 08:37:57

你有没有遇到过这种抓狂时刻?

给AI一张人头攒动的照片,问它“图里有多少人”,它信誓旦旦报个数,结果差了十万八千里。再问它“左边那个红色电容在右边电感的哪一侧”,它开始支支吾吾、前后矛盾,气得你想摔手机!

别急着骂AI蠢,问题不在它“看”得清不清,而是它根本不知道怎么“指”着说!

DeepSeek又双叒叕放新招了!

就在五一长假前,DeepSeek联合北大、清华发布了一项炸裂技术——“Thinking with Visual Primitives”(以视觉原语思考)。

项目和技术报告已经直接在GitHub上开源了!不是画饼,是真家伙!

💡 戳中所有大模型的“死穴”

论文上来就甩出一个让人拍大腿的问题:现在的多模态大模型,能“看见”,但真不一定能“想清楚”!

作者们把这个问题命名为“Reference Gap”(指代鸿沟)

啥意思?想象一下,你给一个看不见你屏幕的朋友描述棋盘:“左边那个棋子要吃掉中间偏右那个。”朋友一脸懵:你说的是哪两颗?

这就是AI每天面对的真实困境!

传统思维链(CoT)全靠自然语言,但自然语言太“水”了——“左边那个大的”、“靠近中央的红色物体”……在密集场景里根本对不上号!模型的注意力越说越飘,最后彻底跑偏。

过去学术界怎么解决的?让AI“看得更清楚”——高分辨率切割、动态分块。但这解决的是“感知鸿沟”,不是“指代鸿沟”。

看见不等于能说清楚自己在看哪个!

🌟 核心创新一:把坐标变成AI的“手指”

DeepSeek这波操作太聪明了!

传统做法中,边界框只是输出结果:AI想完了,告诉你“目标在左上角[100,200,300,400]”。这是事后标注,不是思考工具。

DeepSeek反着来!让模型在推理过程中,每提到一个视觉对象,就同步输出坐标!

来,感受一下AI现在的“内心戏”:

“扫描图片找熊,找到一只 <|ref|>熊<|/ref|><|box|>[[452,23,804,411]]<|/box|>,它正在爬树,不在地面上,排除。再往左下看,找到另一只 <|ref|>熊<|/ref|><|box|>[[50,447,647,771]]<|/box|>,站在岩石边缘,符合条件。”

看到没?坐标不再是答案,而是推理过程中消除歧义的“锚点”!就像人类数东西时会一个接一个点过去,逻辑链被钉在图片的物理坐标上,想漂移都难!

两种“原语”任你选:

  • 边界框(<|box|>):需要定位和尺寸信息的对象
  • 点坐标(<|point|>):迷宫轨迹、曲线路径等抽象空间指代

⚡ 核心创新二:7056倍压缩!少就是多

这组数字太震撼了,我给您算笔账:

一张756×756的图,传统方案需要大量视觉token喂给语言模型。DeepSeek的流程是这样的:

  • 👉 图片 → ViT处理 → 2916个图像块token
  • 👉 3×3空间压缩 → 合并为324个token
  • 👉 压缩稀疏注意力(CSA)机制 → KV缓存再压缩4倍 → 最终只剩81个视觉KV条目!

从原始像素到最终缓存,整体压缩比:7056倍!

对比一下:同样处理一张800×800的图,Claude Sonnet 4.6需要约870个KV缓存条目,Gemini-3-Flash需要约1100个,DeepSeek只要90个左右!

核心逻辑很硬核:精确的空间指代能力,可以弥补视觉token不足的问题。AI不需要“看更多”,只需要“指更准”!

🎯 核心创新三:用“特训”把AI练成火眼金睛

光有架构还不够,训练数据才是灵魂!

团队爬了近10万个目标检测数据集,经过两轮严格筛选,只留下约3.17万个高质量数据源,生成了超过4000万条训练样本。

更精彩的是四类专项“特训任务”:

🚀 计数训练

  • 粗粒度(“图里多少人”):学习“批量锁定”——一次性框出所有候选对象再数
  • 细粒度(“穿蓝衣服的有几个”):逐一扫描、逐一核对属性

🚀 空间推理

利用GQA和CLEVR数据集生成多跳推理样本,强迫模型每一步都得用边界框锁定对象

🚀 迷宫导航(46万条样本!)

用DFS、Prim和Kruskal算法生成矩形、圆形、六边形三种迷宫,甚至专门设计了“看似有解实则无解”的迷宫来提升鲁棒性!AI需要用点坐标记录每一步探索轨迹,回溯时也要标记已排除路径。

🚀 路径追踪(12.5万条样本)

多条贝塞尔曲线交叉缠绕,要求模型追踪指定起点到达终点。核心挑战是“交叉歧义消解”——两条线交叉时,不能靠颜色取巧(故意设计了所有曲线同色的测试版本),必须判断哪条才是目标曲线的延续!

🔥 实验结果:打脸所有前沿模型

在11个基准测试上,这模型把Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、Qwen3-VL-235B等主流模型挨个碾压了一遍!

计数任务

  • Pixmo-Count:DeepSeek 89.2% vs GPT-5.4 76.6% vs Claude 68.7%
  • 细粒度计数:88.7%,超Qwen3-VL的87.2%,排名第一

空间推理

  • MIHBench 85.3%、SpatialMQA 69.4%,均排名第一

最炸裂的差距在这里👇

迷宫导航

  • DeepSeek 66.9% 🏆
  • GPT-5.4 50.6%
  • Gemini-3-Flash 49.4%
  • Claude Sonnet 4.6 48.9%

所有前沿模型只能答对一半,DeepSeek直接提升了约17个百分点

路径追踪

  • DeepSeek 56.7% 🏆
  • GPT-5.4 46.5%
  • Gemini-3-Flash 41.4%

差距同样悬殊!

论文很诚实地说:“所有前沿模型在拓扑推理任务上均表现欠佳,说明多模态大模型的推理能力仍有相当大的提升空间。”

💭 这只是一个开始

当然,论文也没藏着掖着,承认了几个短板:

  • ⚠️ 需要明确的“触发词”才会启动视觉原语机制——还不能自主判断什么时候该“用手指”
  • ⚠️ 极细粒度场景下,坐标偶尔不够精准
  • ⚠️ 复杂拓扑推理的跨场景泛化能力有限

但这篇论文的意义,远不止刷几个榜单。

它提出了一个在此之前并非主流的问题——“推理过程中语言指代的歧义性是多模态模型的根本瓶颈之一”

主流方向一直在卷更大的模型、更高的分辨率、更多的训练数据。DeepSeek给出了另一条路:不是让AI“看更多”,而是让AI“指更准”,用坐标代替语言描述,用空间锚点稳定逻辑链。

这就像给多模态推理增添了一种人类与生俱来、但AI一直缺失的思考姿势——用手指点着思考


当所有人在卷视力时,DeepSeek教会了AI“用手去指”。这不仅是技术的突破,更是认知方式的革新。

👉 你觉得AI的“指代鸿沟”能靠更大模型彻底解决,还是需要类似“视觉原语”这样的新型思维范式?评论区聊聊你的看法!

如果觉得有收获,点个在看,转发给身边关心AI技术本质的朋友吧!