英伟达推出nemotron 3 super 开源大模型

英伟达刚推出了一款叫Nemotron 3 Super的开源大模型,说是他们做过最强的那个,参数规模达到1200亿。这玩意儿用了混合专家架构,平时推理只用激活120亿个参数,效率很高。跟GPT-4那种完全关着门的模型不一样,开源的好处是大家都能随便下载下来调调参数,特别适合做多智能体应用。像Perplexity、Palantir这些公司都在用它优化搜索,西门子甚至拿它来处理半导体设计里的复杂工程数据。 在架构上,这个模型有三个大创新:Mamba层把内存计算速度提了4倍;Transformer层让推理能力更强;“潜在MoE”技术用单专家的钱干了四专家的活。多Token预测机制又把推理速度推到了原来的3倍。 硬件方面更猛了。它在英伟达的Blackwell平台上跑起来特别快,采用NVFP4精度的话,比起Hopper架构的FP8模式,内存占用少了不说,推理速度竟然能提升400%。这让它能瞬间加载代码库调试,或者快速看完上千页的财务报告。 获取渠道也都通了。Hugging Face平台上就有了,谷歌云、甲骨文的服务也都能调(AWS和Azure的服务马上也会上线)。更关键的是,英伟达连训练方法都完全公开了,包括用了超过10万亿个Token的数据集怎么建的这套评估体系。这种“训练-部署”全链条开源的玩法在行业里还是头一回。 现在的企业AI应用正在从单点工具往多智能体系统转型。传统模型在处理复杂工作流时很容易积累大量的“推理税”——每一步推理都要算一遍成本,这就导致费用暴涨好多倍。但Nemotron 3 Super通过架构优化把这事儿解决得挺好。分析师说这种技术突破可能会重新定义企业级AI开发的路子,特别是那些搞金融、制造、科研的单位。 既然要处理这么多东西,这个模型还特别优化了自主智能体系统的运行能力。它有个超大的上下文窗口,能完整保留工作流状态——比如你弄了100万个Token的大文章也不怕漏接上下文——这就解决了以前多智能体交互时容易遇到的“上下文爆炸”问题。因为这个问题太要命了,往往会让成本增加5到15倍甚至还跑偏目标。 至于怎么用呢?这模型还被封装成了NVIDIA NIM微服务的形式,既能在本地数据中心跑也能在云上无缝部署。反正不管怎么说吧,这东西真是挺香的。