Positron发布第二代推理芯片“Asimov”直指Transformer推理瓶颈，称能效与性价比可达同类产品五倍

全球人工智能算力竞赛持续升温的背景下，美国初创企业Positron的最新研发成果引发业界关注。该公司推出的Asimov芯片瞄准当前AI推理计算的关键瓶颈问题，通过架构创新实现了性能指标的明显提高。当前，Transformer架构已成为大模型的主流选择，但传统GPU在内存带宽利用效率上存明显短板。Positron技术团队发现，现有计算设备在运行Transformer推理时，90%的时间消耗在数据搬运环节而非实际运算。这个发现促使研发团队将设计重点转向内存系统优化。 Asimov芯片采用"内存优先"的设计理念，通过独特的双计算模块架构，将内存带宽利用率提升至90%的行业领先水平。每个模块配备432GB高速内存，配合PCIe 6.0和CXL 3.0接口，可扩展至720GB缓存容量。整套系统支持最高2304GB内存和2.76TB/s的惊人带宽，而整机功耗控制在400W以内。在系统集成上，Positron展示了基于Asimov芯片的Titan推理服务器方案。该4U规格的机架式设备集成4颗芯片，可支持16万亿参数规模的超大型模型推理，同时处理1000万token的上下文窗口。公司计划在单系统中实现最高4096个计算节点的集群部署。行业分析人士指出，这一技术路线与英伟达等传统GPU厂商形成差异化竞争。传统方案更注重通用计算能力，而Asimov则专注于推理场景的特定优化。若其宣称的能效比指标属实，将显著降低大模型应用的运营成本。按照规划，Asimov芯片将在2026年底完成流片，2027年初进入量产阶段。这一时间节点恰逢全球AI基础设施建设的又一波高峰，为产品商业化提供了有利条件。不过，业内人士也提醒，从实验室指标到实际应用场景的表现仍需验证，且英伟达等巨头也在持续迭代其产品线。

Asimov芯片的发布表明国内芯片企业在AI推理领域的技术积累正在转化为实际产品。从内存优先的设计理念到系统级的集成方案，该芯片说明了国内企业对产业需求的理解和技术创新的能力。随着2026年流片时间的临近，这款芯片能否在实际应用中达到预期的性能指标，将成为检验国内芯片设计水平的重要标尺。无论如何，这个创新尝试为国内AI芯片产业的自主发展提供了有益的探索，也为推动芯片产业链的完善做出了贡献。