找工位
空间入驻
小程序

数据中台的下一站是什么?

2025-09-03
文章转载自"ToB行业头条"

近一两年,随着数据中台概念的退场,很多人估计都会关注一个问题:"数据中台的下一站是什么?"


应该来讲,我们今天面临的商业环境,特别是AI的革命,跟数据中台提出那个年代已经完全不同,对数据引擎提出了全新的要求,至少包括六个方面:


第一是响应速度的极限挑战中台"集中加工、排队交付"的模式,已成为业务敏捷性的瓶颈。


第二是非结构化数据的崛起以传统数仓为心脏的中台,在处理文本、图像、音视频、日志等非结构化数据的数据资产时力不从心。


第三是AI原生的迫切需求,大模型和AI Agent不是BI报表的消费者。它们需要的是低延迟、高可用的数据服务,如特征,数据平台须从"为人提供报表"转向"为AI提供燃料"。


第四是语义统一的刚性需求,在AI时代,如果机器无法对"活跃用户"这些概念形成唯一、无歧义的理解,那么所有的自动化分析都是泡沫统一的语义层,是高质量AI语料的基石。


第五是"用户最后一公里"的鸿沟数据中台往往只能为少数数据分析师使用。对于95%的业务人员,能否让他们用最自然的方式(如对话)与数据交互,是平台价值能否指数级放大的关键。


第六是"价值最后一公里"的壁垒,如何安全、合规地与外部生态伙伴进行数据协作至让数据资产本身成为新的利润中心,是数据平台从"成本中心"迈向"价值中心"的终极验。

来源与数据同行

作者傅一平


一、智能数据中枢

数据中台的继承者,需要为解决这些问题而生,我今天就系统性的绘制一张数据中台继承者的蓝图——我称之为"智能数据中枢"

它是一个从"资源"到"智慧决策"的完整价值链,由六个逻辑层次协同工作构成,逻辑视图如下所示。

这个架构的核心关系,可以比喻成一个现代化城市的运营系统:

1. 湖仓中枢: 城市的土地与矿产 (统一的数据基座)

2. 领域数据产品: 城市的各大产业园区 (高质量的数据资产)

3. 语义度量层: 城市的宪法与通用语言 (唯一的业务共识)

4. 数据服务层: 城市的电网与物流网络 (标准化的数据动力)

5. 智能Agent层: 城市的专家市民与自动化机器人 (对内的智能服务)

6. 可信数据空间: 城市的海关与自贸区 (对外的信任桥梁)

为了精准理解这个蓝图,我们首先要建立一个核心认知:一个完整的AI原生体系,可以理解为一个“核心引擎”加上两大“价值前端”的“一体两翼”协同工作模式。
一体:数据价值平台
它的核心是1-4层,分别为湖仓中枢、领域数据产品、语义度量层数据服务层,职责是高效、可信地生产、治理并服务化数据。这是整个体系的“心脏”,负责对内的一切数据供给。
两翼:价值实现前端
对内智能前端:它的核心是智能Agent层,目标是极致提升内部员工的效率与决策智能。
对外信任前端:它的核心是可信数据空间,目标是安全合规地实现外部数据价值变现与生态协作。
我们接下来要详细介绍的六层架构,正是对这个“一体两翼”体系在逻辑上的一次完整描绘。它清晰地展示了“核心引擎”如何生产数据燃料,并通过两个性质截然不同的“机翼”进行消费和价值创造。

二、六层架构详解

1. 湖仓中枢

这是统一的数据基座,通过Iceberg/Hudi/Delta等开放表格式,实现对结构化和非结构化数据的统一管理,批流一体,存算分离。

与中台的差异

传统中台底层虽也用Hadoop/Spark,但往往是多套存储(Hive数仓存结构化,对象存储存文件),管理割裂。湖仓中枢则在逻辑上实现了"单一数据副本"的统一治理,并提供了ACID事务、时间旅行等企业级能力。

案例

过去,要分析用户行为日志(流式)和订单(批量),需要在两套不同的系统和表结构中进行复杂关联。现在,它们都可以是湖仓中的Iceberg表,可以用一套SQL引擎进行高效、事务安全的统一查询。

2. 领域数据产品

这是将数据治理的权责下放到最懂业务的领域团队,将数据像软件一样作为"产品"来开发和运营,具备清晰的SLA、数据契约和所有者。

与中台的差异

传统中台是"中央厨房"模式,所有需求集中处理,响应慢。Data Mesh是"联邦制",各领域"自治",中央只提供平台和标准。这从根本上提升了敏捷性和数据质量。

案例

过去,营销部门需要一个新的用户标签,需向中央数据团队提单,排期可能要两周。现在,营销域自己的数据工程师,基于平台工具,一天内就能开发、测试并发布这个标签到本域的《用户画像》数据产品中。

3. 语义度量层

在此用业务语言统一定义核心指标、维度和计算逻辑,实现"一次定义,处处复用",彻底解决了"认知最后一公里"的问题。

在AI时代,它不再是锦上添花,而是生死攸关的"地基"。它为AI Agent提供了标准化的、无歧义的"世界观"和"语料库"。没有它,Agent面对海量数据就会产生"幻觉",所有的智能都将是不可靠的空中楼阁。它是连接"可信数据"和"可靠智能"的唯一桥梁。

与中台的差异

传统中台的指标定义往往与物理实现是脱节的。语义层则是机器可读、可强制执行的,它将业务逻辑与物理实现进行绑定,成为所有上层应用唯一的数据"翻译官"。

案例

过去,BI报表里的"GMV"和财务系统里的"GMV"可能因为统计口径不同而打架。现在,所有应用在调用"GMV"时,都必须通过语义层。语义层会根据官方定义,自动生成或指向唯一正确的查询逻辑,确保结果永远一致。

4. 数据服务层

这是将数据资产转化为机器可消费的、可编程的"动力"的标准化出口,主要形态是API、特征库(Feature Store)和事件总线(Event Bus)。

与中台的差异

数据中台也强调服务化,但更多是"API化",本质上还是"取数"。AI原生平台的服务层,更强调场景化和实时性。特别是特征库,它为AI模型提供了毫秒级的在线特征服务,这是传统中台服务难以企及的。

案例

过去,风控系统需要查询用户的历史交易数据,可能是直接连数据库或者调用一个宽表API。现在,它直接从特征库获取一个名为 user_avg_30d_transaction_value的实时特征,性能更高,且特征的生产和消费完全解耦。

5. 智能Agent层 

它彻底解决了"使用的最后一公里"问题。通过对话式AI,让每个人都能用自然语言进行数据查询、分析和洞察。它将数据的使用门槛降至零,让数据平台从少数专家的"工具"变成了企业全员的"伙伴",从而将平台的内部ROI放大百倍。

它作为“对内智能前端”,其运行底座是Kubernetes、大模型服务等构成的AI应用平台,通过调用第4层数据服务来获取数据燃料。

与中台的差异

这对传统中台是降维打击。中台的终点是BI报表和API,是"人适应工具"。Agent的起点是对话,是"工具适应人"。

案例

过去,运营总监想知道"对比上周,本周上海地区A产品的销量下滑原因",他需要找分析师。现在,他直接问Agent,Agent会自动进行多维度下钻分析,并回答:"主要原因是"促销活动B"于上周日结束,导致流量下滑30%。"

6. 可信数据空间

它彻底解决了"价值的最后一公里"问题。这是在确保数据主权和隐私安全的前提下,实现企业内外部数据流通与价值交换的技术框架,是“数据要素”战略的落地基石。

它作为“对外信任前端”,是一个由隐私计算、安全沙箱等尖端技术构建的专业协作平台,通过标准接口与内部的数据价值平台进行安全交互。

与中台的差异

传统中台往往是内向型的,不具备安全对外协作的能力。可信数据空间通过隐私计算等技术,实现了"数据可用不可见",是颠覆性的新能力。

案例

过去,一家零售商想和银行合作,对高价值客户进行联合营销,只能通过线下交换加密手机号文件的方式,风险极高。现在,双方通过可信数据空间,在不暴露任何一方原始数据的情况下,完成了目标人群的匹配和营销触达。

三、端到端案例

某零售企业CEO早上一上班,收到了一条预警消息:

预警:华东区"智能音箱"品类,过去7日销售额环比下滑35%,已触发严重下跌阈值。

CEO立刻通过对话框下达指令:"深度分析原因,并给出行动建议。" 下图展示了基于AI原生数据平台的自动化分析流程。

第1步:获取统一分析框架

Agent收到"深度分析原因"这个开放式指令后,它立刻与语义度量层(第3层)进行交互,来构建它的分析框架。

1、概念对齐: Agent查询语义层,获取"销售额"、"环比"、"华东区"、"智能音箱"等所有业务术语的官方定义和计算逻辑。这确保了它的整个分析过程都建立在全公司统一的共识之上。

2、获取分析框架: 更智能的Agent甚至可以从语义层获取与"销售额"指标关联的分析模型,比如经典的"人货场"分析框架。语义层告诉它:"销售额 = 访客数 × 转化率 × 客单价"。

3、规划分析路径: 基于此框架,Agent在内部形成了一个清晰的分析计划:"OK,我要依次探查是"访客数"、"转化率"还是"客单价"出了问题,然后再对问题指标进行下钻。"

第2步:宏观指标拆解

Agent开始执行它的第一步计划——拆解核心指标。它优先调用已经高度优化、性能最佳的数据服务层(第4层)

1、Agent连续发起了三个API调用:

  • GET/metrics/visitors?region=华东区&category=智能音箱...
  • GET/metrics/conversion_rate?region=华东区&category=智能音箱...
  • GET/metrics/avg_order_value?region=华东区&category=智能音箱...

2、数据服务层接收到请求,其背后连接着已经预计算好的数据产品(第2层),并迅速返回了结果。

3、初步诊断: Agent发现,客单价和转化率环比基本稳定,但"访客数"环比断崖式下跌了32%它锁定了问题的根源:流量出了问题。

第3步:流量渠道下钻

"访客数下降"的原因可能有很多,比如哪个渠道的流量掉了?并没有一个现成的API可以直接回答这个"开放式"问题。此时,Agent需要动用它的高级能力,直接与数据产品层(第2层)交互。

1、Agent知道了需要分析流量来源,于是它直接定位到了由营销域团队维护的《渠道流量日志》数据产品

2、它动态生成了一段SQL,对这个数据产品进行查询:

sql
   SELECT channel, SUM(visitors) 
   FROM dws_traffic_log 
   WHERE ... 
   GROUP BY channel 
   ORDER BY ...

3、二次诊断: SQL执行结果返回,Agent发现,90%的流量跌幅都来自于""极速短视频"渠道的官方直播间"。问题范围被进一步缩小。

第4步:探查业务事件

为什么一个头部渠道的流量会突然暴跌?这很可能与某些业务事件相关。Agent需要查询公司最近发生了什么。

1、Agent调用数据服务层(第4层)的事件服务(Event Bus)的查询服务,检索过去两周内,与"华东区"、"智能音箱"、"极速短视频"相关的业务事件标签

2、事件总线返回了一条关键信息:华东区负责该渠道直播的头部主播"小智",于8天前因合同到期而离职

第5步:挖掘非结构化数据

主播离职是否真的导致了用户流失?Agent需要寻找更直接的证据。它决定去挖掘最原始的、未经处理的用户反馈信息。这是它唯一一次需要触达到湖仓中枢(第1层)

1、Agent在湖仓中定位到了存储"直播间弹幕评论"的原始日志文件(非结构化数据)

2、它调用内置的自然语言处理(NLP)模型,对近两周的弹幕进行情感分析和主题建模。

3、最终诊断 (根本原因): 分析结果显示,自8天前起,关于"小智去哪了?""新主播不专业""不想看了"等负面评论的占比激增了500%

第6步:外部联动与行动建议

找到了根本原因,Agent需要给出可执行的建议。它知道公司与多家MCN机构(网红孵化机构)有合作。

1、形成报告与建议: Agent自动汇总以上所有分析步骤,生成一份简洁的报告,并提出核心建议:

核心原因已定位:头部主播"小智"离职导致核心粉丝流失。

建议:

1. 紧急与"小智"沟通续约可能性。

2. 若无法续约,立即启动新头部主播的招聘流程。

2、调用外部服务: 为了让建议更具落地性,Agent通过可信数据空间(第6层),安全地调用了合作MCN机构提供的"主播匹配"API服务,传入了"智能硬件"、"华东区"、"粉丝画像类似小智"等参数。

3、最终交付: MCN机构的API在不获取我方任何用户数据的情况下,返回了3位候选新主播的公开资料和报价。Agent将这份候选人列表作为附件,连同分析报告一起,呈现在CEO面前。

案例总结

最终,CEO在上班不到一小时内,就收到了这份从"发现问题"到"定位根因"再到"提供候选方案"的完整闭环报告。

在这个案例中,Agent不再是一个被动的"查询工具",而是一个主动的"项目经理"和"侦探",它:

  • 语义层为"大脑",规划思考
  • 数据服务为"快捷键",高效执行
  • 数据产品为"分析台",深度下钻
  • 湖仓为"档案室",挖掘原始证据
  • 可信空间为"外部顾问",联动生态

这充分展示了智能数据中枢是如何将数据、工具与智能无缝融合,创造出传统架构无法比拟的响应速度和决策深度。


该蓝图落地充满挑战,无论是湖仓对传统数据架构的冲击,数据产品需要的组织变革,语义层涉及的流程重塑,抑或是可信空间、Agent带来的新技术和商业模式的挑战。

但方向不会变,那就是数据中台的继承者,我称之为"智能数据中枢"——它不再是中央集权的"大厨房",而是一个联邦自治、AI驱动、可信开放、价值导向的智能生态系统。构建这个中枢,对企业必然是一次技术、组织和文化的深刻变革。

希望带给你启示。





联系我们

品牌推广 | 业务咨询 | 社群合作 | 转载开白
请联系:13220165856

社群邀请

专题推荐

▼点击图片即可跳转阅读

平台矩阵