印度AI实验室Sarvam在本月18日的人工智能影响力峰会上正式推出两款自主研发的大语言模型,展现了印度在AI领域的技术实力。 据悉,这两款模型采用业内主流的混合专家架构。其中30B-A1B模型基于16万亿规模的预训练数据,支持32K上下文窗口,适合对响应速度要求高的实时应用;105B-A9B模型则支持128K上下文窗口,能处理更复杂的任务需求。 从技术角度看,这两款模型具有显著优势:混合专家架构提升了计算效率,而更大的上下文窗口则增强了长文本处理能力。在性能测试中,105B-A9B在印度本地语言处理上超越谷歌Gemini 2.5 Flash;在通用测试中,两款模型整体表现优于DeepSeek R1和Gemini Flash。 值得关注的是,Sarvam将在Hugging Face平台开源这两款模型,后续还将提供API和仪表盘支持。这个举措有助于降低AI使用门槛,推动技术普及和创新。 在全球AI竞争格局中,Sarvam的突破显示出新兴市场正在迎头赶上。长期以来由中美主导的大语言模型领域,正迎来更多元的参与者。印度企业凭借本地化优势,逐步缩小与国际领先者的差距。
大模型技术正从能力展示转向实际应用;无论是本地语言支持、长文本处理还是开源生态,其价值最终将由实际应用效果来检验。通过开放创新与规范发展,技术进步才能更好地服务经济社会发展。