

你还在为AI只会机械对话而烦恼吗?
当ChatGPT们还在文本世界里打转时,真正的智能革命已经悄然转向!
2026年3月24日,国家数据局首次官宣“词元”为Token标准译名,并披露国内日均调用量突破140万亿!但这仅仅是开始...
你知道吗?这140万亿词元调用量,还只是“文本时代”的规模!在语音、视频、实时交互驱动的多模态场景中,随着自主调用工具的Agent大量部署,词元的生成与消耗方式正在发生范式性变化。
从离散文本走向连续感知,从低频批量输入走向高频流式输入——这才是真正的智能革命!
早在2021年,复旦大学邱锡鹏教授就明确采用“词元”这一译法。他指出,“词元”既避免被简单理解为自然语言中的“词”,又保留了其作为语言处理基本单位的本质内涵。
如今,随着大模型从文本走向多模态、从模型能力走向Agent系统,“词元”对应的已不只是术语问题,而是下一代智能系统的底层组织方式!
相比纯文本,音频的信息密度更高!天然包含语调、节奏、情绪等文本难以完整承载的信号。同时,音频更容易与环境、动作和上下文形成连续输入流,更接近真实世界中的人机交互方式。
它不仅是交互入口,更是通向“情境理解”的天然起点!
在2023年“百模大战”期间,绝大多数资源涌向文本大模型赛道,基础研究的多样性却在萎缩。模思智能没有跟随主流,而是选择了一条更少人走的道路:从语音切入,走向全模态,在统一的词元结构中表达和计算不同模态的信息!
当词元不再只是文本中的离散符号,而成为连续感知信息的离散化表达后,模型要解决的问题也发生了变化:从“理解一句话”转向“理解一个情境”!
模思智能将这一能力概括为“情境智能”——以持续感知、动态记忆与环境理解为基础,使AI能够在真实世界中进行自适应交互。
在这一框架下,词元不再只是静态输入单元,而是构成情境的基本信号!
2023年2月,国内首个类ChatGPT对话式大模型MOSS发布,打响了中国“百模大战”的第一枪。但在模思智能团队看来,真正重要的不是打一场模型发布战,而是提前押注下一阶段的技术结构!
1. SpeechGPT(2023年5月)
首次将连续语音信号拆解并映射为离散词元序列,让语音得以真正进入与文本统一的词元空间!
2. SpeechTokenizer(2023年8月)
融合语义词元与声学词元的音频离散化编码器,为后续语音理解与生成、乃至更广义的多模态统一建模打下了底座!
3. AnyGPT(2024年2月)
首次将语音、文本、图像与视频统一映射至离散词元体系,提出了真正意义上的离散化全模态基座模型架构!
2025年7月,MOSS-TTSD发布——国内首个基于百万小时音频训练的开源中英双语对话语音模型!
2025年11月,下一代能动性模型体系NEX在氛围编程、工具使用等多项基准测试中进入全球第一梯队!
2026年,团队以月度推进的节奏持续迭代,成为国内少数完成“全模态基座模型能力闭环”的初创公司之一!
复旦大学教授,国家杰出青年科学基金获得者!荣获2024年CCF-ACM AI Award(当年全球唯一获奖人)!
他长期深耕自然语言处理与大模型方向,在端到端语音大模型与全模态基座模型等前沿领域持续保持技术领先!
出自邱锡鹏门下硕博连读体系,以一作身份发表多篇CCF-A类论文!深度参与科技部“新一代人工智能2030”重点研发项目,在拟人化人机交互方向实现多项关键技术突破!
模思智能并非传统意义上的“教授带学生创业”,而是由上海创智学院与复旦大学联合孵化的标杆项目!
作为上海市主导设立的新型研发机构,创智学院为公司提供了覆盖算力、人才与产业资源的体系化支持,使其具备远高于常规学术创业项目的起点与迭代速度!
公司目前已形成近百人的全栈技术体系,博士占比接近50%!核心成员主要来自复旦大学NLP体系(CS Ranking全球前列)!
模思智能多模态大模型开放平台已进入全面公测阶段,提供一站式API服务!
目前已在消费电子、智能汽车、具身智能与AI陪伴等多个场景中与头部客户展开合作,初步验证了技术落地能力与商业转化潜力!
国家数据局首次官宣“词元”译名,标志着大模型产业正从早期野蛮生长走向更高程度的规范化!
单纯依赖参数堆叠与算力外推的阶段正在逐步过去,未来模型能力的差距,可能越来越取决于架构创新、系统组织方式以及顶尖人才密度!
模思智能试图回答的,正是一个尚无定论的问题:当大模型进入深水区,真正的护城河究竟是什么?
答案或许已不再只是参数规模或算力投入本身,而在于是否能够更早识别并押注下一代智能的核心结构!
对模思智能而言,这种结构体现为:统一的词元表达、面向情境的持续理解能力,以及能够调用工具、交付结果、与用户建立长期关系的Agent系统!
金句:当“词元”进入官方语言,真正值得关注的,或许已不只是一个术语被定名,而是谁能够率先定义:词元将如何被生产、组织与使用!
互动问题:你觉得下一代AI的突破点会在哪里?是多模态理解、情境智能,还是其他方向?评论区聊聊你的看法!
如果这篇文章让你对AI未来有了新认识,别忘了点赞+分享给更多朋友!一起见证智能革命的新篇章!