在2026年3月举行的中国发展高层论坛上,国家数据局局长刘烈宏给出了答案,“Token”的中文名定下来了,叫“词元”。刘烈宏说,这个词不仅是智能时代的价值锚点,更是连接技术供给和商业需求的结算单位,为商业模式落地提供了量化可能。 大家知道,Token是AI模型处理信息的最小单位,无论是提问还是代码,都要拆分成Token来运算。所以,Token调用量直接反映了模型的活跃度和产业价值。调用量大,说明模型用得越多,创造的价值就越大。 据介绍,到2025年底,中国已经建成高质量数据集超过10万个。今年3月,全国日均Token调用量超过140万亿。这一数字相比2024年初的1000亿增长了1000多倍,和2025年底的100万亿相比,三个月时间又增长了40%。 刘烈宏指出,这种增长表明中国的人工智能发展进入快速增长阶段。应用场景从能对话深化到能决策执行的智能体,产业竞争力显著增强。同时也意味着数据集供给大幅增加,数据要素价值不断释放。 关于“词元”的命名过程可以追溯到2021年之前的学术阶段。在自然语言处理(NLP)领域,“token”常被译为“词元”,指代文本拆分后的最小处理单元。这个译法在学界已达成共识但未进入公众视野。 随着2023至2025年大语言模型(LLM)爆发式发展,“token”作为模型处理单位和计费依据备受关注。技术界和媒体迫切需要一个统一译名,但不同领域仍存在“令牌”、“代币”等译法造成认知混乱。 2026年3月的中国发展高层论坛上,刘烈宏正式宣布“token”的中文译名定为“词元”。他提到这个译名延续了学术界传统又通过官方背书进入公共话语体系。 接下来国家数据局会以场景需求为牵引推进先行先试工作打造高质量数据集以实现供给量质提升。