罗福莉：未来12个月内大模型的发展趋势其实很明确

就在3月27日这一天，有位来自中关村论坛的现场对话引起了大家的注意。那天是2026年，大会邀请了好几位业内的重要人物聚在一起聊AI，小米那边负责MiMo大模型的罗福莉也在现场露面了，这还是她第一次在小米以外的地方公开露面。罗福莉跟无问芯穹的CEO夏立雪、智谱华章的CEO张鹏，还有杨植麟、黄超等人一块聊了关于AI行业趋势和OpenClaw这些热点的看法。罗福莉在会上提到了一个大家特别关心的问题：今年的Token（词元）量会不会一下子涨到100倍？她觉得，“推理需求”这东西最近确实增长得很快，几乎快达到十倍了。罗福莉觉得，未来12个月内大模型的发展趋势其实很明确。虽然她觉得把期限定为一年有点紧张，但要是把眼光放长到五年的话，某种意义上AGI（通用人工智能）或许早就实现了。现在全球的AI行业都在搞下一代大模型基础结构的探索，像稀疏化、可控机制结构创新还有小米推出的SSM架构，这些都是跳出现有框架做的创新尝试。罗福莉表示，只有真正做到超长上下文场景下的低成本高效率推理，“才能把真正具备高生产力价值的任务交给大模型”，这样才能支撑它完成更复杂的任务。她说这种模型的自进化能力特别关键。具体来说，就是大模型要在复杂环境里靠超强的长上下文处理能力实现自我迭代。要想实现这个目标，不光得在预训练阶段搭好架构，“还得在推理侧把效率优化到极致”，这是一场全链路的竞争。罗福莉估计这个过程用不了太久，“一年前我觉得得3-5年才能成，现在觉得1-2年就能搞定”。这次论坛上大家都在热烈讨论Token的话题。罗福莉说大家实际用的时候会发现模型能力越来越强，“它的核心前提是高效的Token处理能力”。现在有些模型在长上下文场景下性能很强且成本很低，“但绝大多数模型还是太贵太慢”，没法真正落地。只有解决了这个问题，“才能让模型在更大规模的上下文量级下实现自进化”。她还提到了竞争的维度。除了模型架构和算法的创新，“竞争还会向下延伸到算力基础设施、推理芯片”，最终落到核心人才上。未来还有很大的想象空间。罗福莉本人之前的经历也挺丰富：她本科毕业于北京师范大学计算机专业，硕士去北大学了计算语言学。后来她加入阿里巴巴达摩院做机器智能实验室研究员，开发过VECO项目并推动AliceMind开源工作。到了2022年，她加入了DeepSeek母公司幻方量化搞深度学习，后来又在DeepSeek担任研究员参与DeepSeek-V2的研发工作。