Token,也就是中国数据局定的这个中文译名,叫词元,3月15日的消息一出来,科技圈立马炸了锅,社交平台上一下子涌进了将近60万人来讨论这事儿。大家伙儿之所以这么激动,不光是因为有个新名词好说,关键还得看它在这背后的分量。说到这,你得先搞明白Token到底是个啥。这其实就是大语言模型处理文本的“最小单位”,我们平时读书写字以“字”为单位,AI工作时可不一样,它是把一大段文字拆分成一个一个的词元来理解的。比如咱们说句“我爱中国!”,AI就会把它分成【我】【爱】【中国】【!】这4个词元。简单来说,词元就是AI听懂人类语言的那块“砖头”。以前关于怎么翻译Token一直有争议,区块链圈叫它代币,AI圈有人翻成令牌,还有人干脆就念英文。叫法太杂搞得大家都挺迷糊的,统一个名字刻不容缓。 这次选了“词元”,主要是因为“词”把语言的意思点明了,“元”又让人想到元素里的那个“元”,意思是构成事物的基本单位。这两个字凑一块儿,“词元”就成了处理信息的最小单元。这个译法既准确又好听。你可别小看它,每产生一个词元背后都有一块高性能GPU在拼命干活,得消耗大量的电能和算力来跑计算。所以这东西不仅仅是文本处理的单位,还是收费的标准——就跟手机流量似的用得多了就得付钱。 到今年3月了,我国日均调用的词元量都已经超过140万亿了。而且到了3月15日那时候中国大模型的周调用量连续两周都把美国给比下去了。以后咱们用AI服务的时候得注意点这事儿。 国家数据局局长刘烈宏也说过这东西重要呢。它不光是个指标还是个连接技术和商业的“结算单位”。以前的信息技术发展史里都是这样的话语权争夺战。这次定下“词元”的名字就意味着中国AI在术语层面也有话语权了。 科技圈里不是老说“AI的尽头是算力”,“算力的尽头是电力”嘛?现在中国已经建成了全球最大的可再生能源体系了。咱们有信心参与到这个世界的建设里来。“十四五”时期咱们国家也把算电协同写入了政府工作报告呢。