

你有没有遇到过这种抓狂时刻?
给AI一张人头攒动的照片,问它“图里有多少人”,它信誓旦旦报个数,结果差了十万八千里。再问它“左边那个红色电容在右边电感的哪一侧”,它开始支支吾吾、前后矛盾,气得你想摔手机!
别急着骂AI蠢,问题不在它“看”得清不清,而是它根本不知道怎么“指”着说!
就在五一长假前,DeepSeek联合北大、清华发布了一项炸裂技术——“Thinking with Visual Primitives”(以视觉原语思考)。
项目和技术报告已经直接在GitHub上开源了!不是画饼,是真家伙!
论文上来就甩出一个让人拍大腿的问题:现在的多模态大模型,能“看见”,但真不一定能“想清楚”!
作者们把这个问题命名为“Reference Gap”(指代鸿沟)。
啥意思?想象一下,你给一个看不见你屏幕的朋友描述棋盘:“左边那个棋子要吃掉中间偏右那个。”朋友一脸懵:你说的是哪两颗?
这就是AI每天面对的真实困境!
传统思维链(CoT)全靠自然语言,但自然语言太“水”了——“左边那个大的”、“靠近中央的红色物体”……在密集场景里根本对不上号!模型的注意力越说越飘,最后彻底跑偏。
过去学术界怎么解决的?让AI“看得更清楚”——高分辨率切割、动态分块。但这解决的是“感知鸿沟”,不是“指代鸿沟”。
看见不等于能说清楚自己在看哪个!
DeepSeek这波操作太聪明了!
传统做法中,边界框只是输出结果:AI想完了,告诉你“目标在左上角[100,200,300,400]”。这是事后标注,不是思考工具。
DeepSeek反着来!让模型在推理过程中,每提到一个视觉对象,就同步输出坐标!
来,感受一下AI现在的“内心戏”:
“扫描图片找熊,找到一只 <|ref|>熊<|/ref|><|box|>[[452,23,804,411]]<|/box|>,它正在爬树,不在地面上,排除。再往左下看,找到另一只 <|ref|>熊<|/ref|><|box|>[[50,447,647,771]]<|/box|>,站在岩石边缘,符合条件。”
看到没?坐标不再是答案,而是推理过程中消除歧义的“锚点”!就像人类数东西时会一个接一个点过去,逻辑链被钉在图片的物理坐标上,想漂移都难!
两种“原语”任你选:
这组数字太震撼了,我给您算笔账:
一张756×756的图,传统方案需要大量视觉token喂给语言模型。DeepSeek的流程是这样的:
从原始像素到最终缓存,整体压缩比:7056倍!
对比一下:同样处理一张800×800的图,Claude Sonnet 4.6需要约870个KV缓存条目,Gemini-3-Flash需要约1100个,DeepSeek只要90个左右!
核心逻辑很硬核:精确的空间指代能力,可以弥补视觉token不足的问题。AI不需要“看更多”,只需要“指更准”!
光有架构还不够,训练数据才是灵魂!
团队爬了近10万个目标检测数据集,经过两轮严格筛选,只留下约3.17万个高质量数据源,生成了超过4000万条训练样本。
更精彩的是四类专项“特训任务”:
🚀 计数训练
🚀 空间推理
利用GQA和CLEVR数据集生成多跳推理样本,强迫模型每一步都得用边界框锁定对象
🚀 迷宫导航(46万条样本!)
用DFS、Prim和Kruskal算法生成矩形、圆形、六边形三种迷宫,甚至专门设计了“看似有解实则无解”的迷宫来提升鲁棒性!AI需要用点坐标记录每一步探索轨迹,回溯时也要标记已排除路径。
🚀 路径追踪(12.5万条样本)
多条贝塞尔曲线交叉缠绕,要求模型追踪指定起点到达终点。核心挑战是“交叉歧义消解”——两条线交叉时,不能靠颜色取巧(故意设计了所有曲线同色的测试版本),必须判断哪条才是目标曲线的延续!
在11个基准测试上,这模型把Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、Qwen3-VL-235B等主流模型挨个碾压了一遍!
计数任务
空间推理
最炸裂的差距在这里👇
迷宫导航
所有前沿模型只能答对一半,DeepSeek直接提升了约17个百分点!
路径追踪
差距同样悬殊!
论文很诚实地说:“所有前沿模型在拓扑推理任务上均表现欠佳,说明多模态大模型的推理能力仍有相当大的提升空间。”
当然,论文也没藏着掖着,承认了几个短板:
但这篇论文的意义,远不止刷几个榜单。
它提出了一个在此之前并非主流的问题——“推理过程中语言指代的歧义性是多模态模型的根本瓶颈之一”。
主流方向一直在卷更大的模型、更高的分辨率、更多的训练数据。DeepSeek给出了另一条路:不是让AI“看更多”,而是让AI“指更准”,用坐标代替语言描述,用空间锚点稳定逻辑链。
这就像给多模态推理增添了一种人类与生俱来、但AI一直缺失的思考姿势——用手指点着思考。
当所有人在卷视力时,DeepSeek教会了AI“用手去指”。这不仅是技术的突破,更是认知方式的革新。
👉 你觉得AI的“指代鸿沟”能靠更大模型彻底解决,还是需要类似“视觉原语”这样的新型思维范式?评论区聊聊你的看法!
如果觉得有收获,点个赞和在看,转发给身边关心AI技术本质的朋友吧!