

你有没有遇到过这种崩溃瞬间——
明明给AI发了一张高清照片,它也能看懂画面里有什么,但你问“左边那只狗是什么品种”,它却开始胡言乱语。
不是你图不够清楚,而是模型根本不知道你指的“那只狗”到底是哪只!
五一假期前一天,DeepSeek突然扔出一份视觉多模态技术报告。点开之前,我以为又是卷分辨率的老套路。结果看完直接傻眼——他们压根没跟风拼像素,而是走了一条所有人都没想到的路。
人类看图可以用手指去标记。“这个人是张三,那个人是李四”。
但模型呢?它只能说“左边那个”“上面那个”“穿红衣服那个”。一旦画面复杂起来——比如照片里有十几只狗——语言指代立刻崩溃。
DeepSeek在报告里提出了一个扎心的问题,叫“引用鸿沟”。什么意思?
就是模型明明看清楚了图像里的每个细节,但在推理过程中,它没办法稳定地指向同一个视觉对象。它说“那只狗”,但你不知道它说的是哪只。
更绝的是,你让AI数一下照片里有几只狗。它数着数着就忘了自己数过哪些、还没数哪些。结果给你报个“7只”,其实一共才5只。
这就是多模态模型最容易被忽略的死穴——不是看不见,是指不准。
DeepSeek的解决方案,简单到让人拍大腿:
那就给模型一根“手指”不就完了?
他们把边界框(bounding boxes)和点(points)这两个最基础的视觉标记,直接变成了模型思考时的“最小单位”。
什么意思?
以前的多模态模型也能画框标注物体,但那只是在最后给你看个结果——就像考试只交答案,不写解题过程。
DeepSeek完全不同。模型在思考的时候,不只是用语言说“我看到了一只狗”,还同时输出“我看到了一只狗,它在这里:[[x1,y1,x2,y2]]”。
他们管这叫“边推理边指向”。
模型的每一步思考都锚定在图像的具体坐标上。它不会迷路,不会搞混,不会“指东打西”。每个视觉对象都有明确的空间锚点,推理过程变得可追踪、可验证。
OpenAI在o3、o4-mini里搞的是“thinking with images”,让图像进入推理链,模型可以裁剪、放大、旋转图片。
DeepSeek则更“符号化”——让坐标直接进入思维链。模型在推理文本里显式写出边界框和点的坐标。
一个黑箱操作,连结果都不给你看明白。一个全程透明,每一步都让你知道你指的是哪个玩意儿。
你更信任哪个?
DeepSeek报告里有一张对比图,我看了直接头皮发麻。
同样是处理一张800×800分辨率的图像:
更狠的是KV缓存。Gemini要保留上千个条目,DeepSeek只保留约90个。
直接碾压!
他们用了一个叫“压缩稀疏注意力”(Compressed Sparse Attention, CSA)的机制。
我给你翻译一下:
你看一张全家福,不会说“从左数第237个像素开始有一块红色区域”。你会直接说“左边是我妈,右边是我爸”。
DeepSeek的ViT先把图像压成更少的视觉token,CSA再把这些token在KV缓存中的表示进一步压缩。
一张756×756的图像,原始像素是571536个。经过ViT处理后变成2916个patch token。再压缩成324个视觉token。最后CSA再压4倍,只保留81个KV缓存条目。
压缩比:7056倍!
第一,推理速度直接起飞。图像token越少,每次生成新token时计算量就越小。对于机器人视觉、自动驾驶、实时视频分析,这就是生死线。
第二,内存占用断崖式下降。KV缓存是大模型推理的瓶颈。DeepSeek只需要90个条目,意味着同样的硬件能处理更多图像,支持更多并发用户。很多公司的多模态模型在实验室表现很好,一到实际部署就崩——成本太高了。DeepSeek的效率优势在规模化部署时会被无限放大。
第三,训练成本直线下降。更少的视觉token意味着更小的计算图,更快的训练速度,更低的硬件要求。
DeepSeek从R1到V4再到现在的视觉多模态,一直有一条暗线:真正的智能不在于算力,而在于对问题本质的理解。
当你真正理解了视觉推理需要什么,你就不需要那么多token。效率只是证明这个范式对了的副产品。
DeepSeek在报告里坦然承认:目前的“用视觉基元思考”能力,需要显式的触发词才能激活。
也就是说,模型还不能自主决定“什么时候该画框、什么时候该打点”。你得先告诉它“用视觉基元”,它才会用。
理想状态应该是什么?你问“数一数图里有几只狗”,模型应该自己意识到:这事儿靠语言不行,我得开启视觉基元模式。
DeepSeek还没实现这个“元认知层”,但他们已经明确了方向。
为了控制token数量,DeepSeek限制了视觉token的范围在81到384之间。这在大部分场景下很合理,但遇到医疗影像分析、工业质检这种需要极高精度的任务,就会遇到瓶颈。
DeepSeek说这个问题可以通过整合现有的高分辨率方法来解决。我觉得他们以后的混合方案大概是这样:常规任务用压缩视觉表征,需要细粒度分析时再动态调用高分辨率。
目前测试主要是在合成数据上做的。迷宫是算法生成的,路径追踪曲线是程序化绘制的。当模型遇到真实世界里的拓扑推理问题——比如在真实地图上规划路径、在复杂管线图里追踪连接关系——表现会不会下降?
这是个没有答案的问题。但DeepSeek能在报告里公开谈论这些问题,说明他们对工作有清醒的认知。这可能比给出完美答案更有价值。因为真正推动行业进步的,往往不是答案,而是问题。
当所有巨头都在堆算力、卷分辨率的时候,DeepSeek选择问了一个更底层的问题:模型真的知道你在说什么吗?
这个问题,可能比答案更重要。
💬 你觉得AI的视觉能力,到底是“看得更清”重要,还是“指得更准”重要?评论区聊聊你的看法!
👍 如果觉得这篇文章有启发,记得点赞+在看+分享给你的朋友们,让更多人看到不一样的技术视角!