国产ai算力杀入了“低精度、高吞吐”的深水区

这一回华为的动作可真不小,直接在2026年的合作伙伴大会上推出了国内首款能跑FP4低精度的推理卡Atlas 350,这让搭载它的昇腾950PR处理器赚足了眼球。张迪煊总裁在台上一摊数据,大家都被吓到了:这张卡的FP4算力竟然达到了1.56 PFLOPS,足足是英伟达H20的近3倍。要知道,H20在FP8或者INT8模式下也才只有296 TFLOPS,这一比直接是个2.87:1的碾压局。 不光算力厉害,内存也没落下。华为自己搞出来的HBM2e容量达到了112GB,比H20多了整整16GB,虽然内存带宽只有1.4 TB/s,比不上H20的4 TB/s,但是通过把内存访问的颗粒度从512B降到128B,小算子的访存效率反倒提升了4倍。这就好比在胡同里开车不能太快,但跑得快并不一定赢,谁更省油才是王道。 最狠的一招还是支持FP4这个“独门绝技”。在AI推理这块儿,大模型跑得飞快主要靠低精度搞事情。比如说一个70B参数的大模型,用FP16跑得内存不够用,得占140GB显存,换成FP4后只用35GB就行。这样一来,Atlas 350单张卡就能跑下以前那种巨无霸模型,推理的时间自然就变短了。 华为自己也实测了一番:在做短视频、电商推荐这些事儿的时候,这张卡的速度能达到业界主流产品的2到3倍;在画画或者生成视频这种多模态任务里,效率更是直接提升了60%,跟英伟达的L20比起来不分上下。 生态这块儿也已经铺开了。昆仑、华鲲振宇、神州鲲泰这7家核心伙伴都拿出了自家的服务器整机来首发Atlas 350。软通华方拿出的“超强A860 A5”就特别有看头,6U2路的架构能塞进去8张卡,组起来的集群算力高达12.48 PFLOPS。 这次发布意味着国产AI算力在推理端正式杀入了“低精度、高吞吐”的深水区。虽然在高带宽互联这方面还有点距离要追,但在特定场景里它已经筑起了护城河。这60%的效率提升和7家伙伴的同步跟进,再加上1.56 PFLOPS的硬实力,咱们中国终于有了自己的AI利器。