3月20日,华为云把一项名为FlexNPU的柔性智算操作系统给发布了,意在帮企业把Token消耗这只吞金兽给管住。这个新系统能把算力利用率从可怜的不到30%大幅提升,让超过一半原本在摸鱼的算力不再吃空饷。现在大家都在讲“养龙虾”,但做AI落地的人会遇到成本太高、技术难啃、场景对不上号的大麻烦。华为云首席架构师、Fellow顾炯炯在现场放了个大招,说他们公司的推理池平时利用率都没到30%,大把花掉的钱买的硬件算力池,竟然有一半以上都在浪费。顾炯炯还特别指出,现在Agent时代来了,企业都面临着算力不够用的大痛点。Agent自己想规划、多轮迭代再加上长上下文,Token消耗那是指数级往上涨。怎么省钱变成了最要紧的事。为了这事儿,华为云掏出了黑科技FlexNPU,用灵活的AI Infra层调度技术让推理池的利用率飙升。同样的算力投入现在能输出更多Token。顾炯炯把FlexNPU比作孙悟空手里的金箍棒,大小随心变。用了它之后就不用再为大模型推理时的闲置算力买单了,也不用为小模型独占算力浪费心疼了。最重要的是不用因为出错重做赔上一大笔钱。这就把过去按资源分配的模式给改成了按效率分配的模式。“让每分钱都能让智能体的海量Token人人都能用得起。”现场几个伙伴也都现身说法。天宽科技有限公司的CTO龚徐建说他们用昇腾平台搭了个制造业Agent解决方案,智能问答、审核合同、查数据这些都能搞定。合同审核准度能到90%,效率翻了三倍;查数据的时间从一小时缩到了2分钟;“把人从杂活里解放出来。”以后还会在市场洞察、能力共建这些方面深入合作。天津宏达瑞信科技有限公司的CEO丁照祥介绍说他们基于华为云天筹能力搞出了智能路径规划方案。“让商品从仓库到经销商跑得最顺最快”。哪怕路上情况复杂也能灵活变道排线效率一下提升了60倍以上。“还能减少20%的冗余出车次数”,物流成本这就降了5.8%。(记者:郜小平)