找工位
空间入驻
小程序

哈萨比斯:忽强忽弱的智能,才是真正的灾难—AGI突破的关键在记忆系统

2026-04-11 00:00:00
文章转载自"北大纵横"

图片
来源 | 大顺AI商业流量
作者 | Alex
3232字 阅读时间7分钟
德米斯·哈萨比斯(Demis Hassabis)发现:
由Genie模型生成的互动视频——
一个虚拟角色在模拟环境中自主探索、规划路径,并根据用户指令动态调整策略。
其画面特别流畅,逻辑严密,仿佛已逼近通用人工智能(AGI)的临界点。  
然而,当他将任务稍作变换——
比如更换目标顺序或引入轻微干扰——
系统便瞬间“失智”,从神级表现跌入常识盲区。
它无法解释为何刚执行的动作不再适用,也无法调用几分钟前的成功经验。  
这不是偶然故障,而是当前AI架构的根本病灶。  
作为全球最接近AGI的实验室掌舵人,哈萨比斯一针见血地指出:“今天的系统是‘参差不齐的智能’(Jagged Intelligences)——
在某些任务上惊艳绝伦,换个问法却连基础逻辑都崩塌。”
这种忽强忽弱的智能波动,不是技术演进的阵痛,而是结构性危机的征兆。
若放任其发展,AGI非但不会成为人类文明的加速器,反而可能演变为一场不可控的认知灾难。  
而破解这一困局的关键,不在更大的参数、更强的算力,而在一个被长期忽视的核心组件:
记忆系统。

一、忽强忽弱的智能,实为“认知癫痫”  
当前主流大模型的表现,恰如一位患有间歇性失忆症的天才。
它能在数学竞赛中碾压人类冠军,却无法理解“如果你把一杯水倒进空杯子,杯子里有什么”;
它能写出媲美莎士比亚的十四行诗,却对“昨天你说过的话”毫无印象。  
这种剧烈波动并非能力不足,而是智能缺乏连续性与一致性的体现。
其背后,是三大结构性缺陷共同作用的结果。  
第一,静态知识库 vs 动态世界。
大模型的知识截止于训练数据冻结时刻。
部署后,它无法像人类一样通过日常交互持续吸收新信息。
这意味着,无论模型多强大,其认知始终停留在“过去时”。
当现实世界变化——
新政策出台、新病毒爆发、新科技涌现——
模型便迅速脱节,甚至输出危险误导。
例如,2024年某医疗AI在训练数据未包含新冠变异株XBB.1.5的情况下,仍向用户推荐已失效的抗病毒方案,造成潜在风险。  
第二,上下文窗口的暴力堆砌。  
为弥补记忆缺失,业界采用“长上下文窗口”策略:
将用户历史对话、文档、代码一股脑塞进输入序列。
但这只是权宜之计。
128K、1M甚至更长的上下文,本质是用算力换记忆,效率极低。
更致命的是,模型并不真正“理解”哪些信息重要、哪些可遗忘——
它只是机械拼接token,如同把图书馆所有书页撕碎后随机粘贴。
实测显示,当上下文超过50K tokens时,关键信息召回率下降超40%,噪声干扰显著上升。 
第三,缺乏记忆的层次化组织。 
人类记忆分为感觉记忆、短期记忆、长期记忆,并通过海马体进行筛选与巩固。
而AI没有这样的分层机制。
所有信息要么被丢弃(因超出上下文),要么被平等对待(导致噪声淹没信号)。
结果就是:
关键经验无法沉淀,错误反复重演。
一个客服AI可能在上午成功处理了某用户的退款请求,下午同一用户再次咨询时,却要求其重新提供订单号、身份证明等全部信息。  
这种架构下的AI,注定是“一次性智能”——
每次交互都是孤立事件,无法形成连贯的认知轨迹。
它的强大建立在海量数据的统计拟合之上,而非真正的理解与积累。
一旦脱离训练分布,便如断线风筝,坠入逻辑深渊。

二、存储、整合、调用的三层机制  

要治愈AI的“认知癫痫”,必须重建其记忆系统。

这不是简单增加存储容量,而是构建一套类脑的记忆机制。

我们可以将其解剖为3个核心层面:

1. 持久化记忆存储:从“无状态”到“有历史”

当前模型本质上是无状态的函数映射:

输入→输出,中间不留痕迹。

真正的智能体必须具备持久化记忆库——

一个可读写、可更新、可索引的外部存储系统。

这并非新概念。
早在2014年,DeepMind就提出神经图灵机(Neural Turing Machine),尝试将神经网络与可寻址内存结合。
近年,检索增强生成(RAG)成为主流方案:
模型在生成前,先从向量数据库中检索相关知识。
但RAG仍是“被动记忆”——
它依赖预存文档,无法自主学习新事实。  未来的记忆系统需支持主动写入:
当AI通过交互获得可靠新知(如用户纠正、实验验证、权威信源),应能将其结构化存入记忆库,并打上置信度标签。
例如,若用户告知“我过敏花生”,系统不仅记住该事实,还应关联到饮食建议、药品禁忌等衍生知识。
这种机制已在MemGPT等开源项目中初步实现,但尚未形成工业级标准。  
2. 记忆整合机制:睡眠中的“知识蒸馏”  
人类通过睡眠实现记忆巩固——海马体将短期记忆回放,筛选重要信息,整合进新皮层的长期知识网络。
AI亟需类似的离线整合机制。  
哈萨比斯在访谈中明确提到:“大脑在睡眠中‘回放’白天的记忆……也许我们需要类似机制。”
这意味着,AI系统应定期进入“维护模式”:
回顾近期交互日志;
识别高频、高价值或矛盾信息;
将碎片经验抽象为通用规则;
更新内部知识图谱或微调模型参数。  
这种机制可避免“灾难性遗忘”——
即学习新知识时覆盖旧知识。
更重要的是,它能让AI从具体案例中提炼模式,实现元学习(meta-learning)。
例如,多次处理医疗咨询后,系统可归纳出“症状-疾病-治疗”的推理框架,而非仅记住孤立病例。
Google DeepMind在2024年发布的“DreamerV3”已展示此类能力:
在强化学习环境中,通过离线回放提升策略泛化性达37%。
3. 情境化记忆调用:精准召回 vs 噪声过滤  
拥有记忆不等于会用记忆。
人类能根据当前任务,精准调取相关经验,忽略无关信息。
AI则常陷入“记忆过载”或“记忆缺失”。 
解决方案在于情境感知的记忆检索。
系统需理解当前任务的目标、约束、历史上下文,动态决定:
需要哪类记忆?(事实、流程、偏好、教训);时间范围?
(最近一次 vs 长期规律);置信度阈值?
(高风险决策需高可信来源)。  
这要求记忆系统与推理引擎深度耦合。
例如,在规划旅行时,AI应自动调取用户过往偏好(“讨厌红眼航班”)、预算限制、签证要求等,而非让用户重复输入。
这种个性化、任务导向的记忆调用,才是智能体“懂你”的基础。
微软Copilot在2025年初测试的“Personal Context Engine”已初步实现此功能,用户任务完成效率提升28%。

三、为何记忆系统长期被忽视?
路径依赖与商业逻辑的双重枷锁  
既然记忆如此关键,为何行业迟迟未突破?
Claude 如何解决AI大模型记忆问题 - 果果AI
答案藏在技术路径依赖与商业逻辑的夹缝中。
路径依赖:Scaling Law 的迷思  
过去五年,AI进步主要靠“大力出奇迹”——
扩大模型规模、数据量、算力投入。
OpenAI的Scaling Law理论宣称:
只要持续堆资源,智能就会线性增长。
这一范式带来惊人成果(如GPT-4),也掩盖了架构缺陷。  
记忆系统恰恰是反Scaling的:
它不依赖更大模型,而需更精巧的设计。
在资本追逐“更大更强”的狂潮中,这类需要长期投入的基础研究被边缘化。
2023—2024年,全球Top 10 AI实验室中,仅DeepMind和Anthropic设有专职记忆架构团队,其余均聚焦模型压缩或推理优化。
正如哈萨比斯所言:“未来几年,能发明全新算法构思的实验室将胜出。”——
而记忆架构正是下一代算法的核心战场。  
商业短视:闭源模型的“黑箱红利”  
当前头部玩家依赖闭源模型构建护城河。
用户交互数据成为私有资产,用于迭代模型,但不反哺个体用户的记忆。
你的聊天记录属于公司,而非你与AI共建的认知资产。  
这种模式下,厂商无意开发开放、持久的个人记忆系统——
那会削弱其数据垄断优势。
结果就是:
每次你换设备、换账号,AI就“失忆”;
同一用户在不同产品中,AI对其认知割裂。
记忆的碎片化,实则是商业利益的必然产物。
Meta的Llama系列虽开源,但其配套记忆管理工具至今未开放;
Google的Gemini Ultra虽支持长上下文,但用户无法导出或迁移个人记忆。  
技术挑战:记忆的“一致性诅咒”  
构建可靠记忆系统面临严峻技术难题:  
事实核查:如何确保写入记忆的信息真实?
隐私保护:个人记忆如何加密、授权、删除? 
冲突消解:当新旧记忆矛盾时,如何仲裁?   
计算开销:实时检索+整合是否拖慢响应?  
这些问题无标准答案,需跨学科协作(认知科学、密码学、分布式系统)。
而当前AI研发仍以“端到端黑箱”为主流,排斥模块化设计。
记忆系统要求透明、可干预的架构,与主流范式格格不入。
2024年一项行业调研显示:
78%的AI工程师认为“记忆模块会破坏模型端到端优化的简洁性”。
图片


文中观点仅为作者观点,不代表本平台立场


各位读者朋友,公众号改了推送规则,如果您还希望第一时间收到我们推送的文章,请记得给北大纵横公众号设置星标。图片

点击左下方公众号“北大纵横”→点击右上角“...”→点选“设为星标⭐️”