在这波AI浪潮中,DeepSeek搞出了个大动静。2026年1月开始,他们先是发了两篇论文,紧接着又在GitHub上把FlashMLA的代码全部晒了出来。你看他们更新的114个文件里,到处都提到一个叫“MODEL1”的新东西,这玩意儿甚至被拿来跟DeepSeek-V3.2(也就是V32)放在一起比较。懂行的人一扒拉上下文,立马就觉得这肯定是款全新架构的AI大模型,跟以前那个肯定不一样。 这新架构到底牛在哪?咱来数数看:第一是把键值缓存的存储逻辑重新捋了一遍。技术文件里写得很清楚,通过这个改动,显卡显存的占用量能直接砍掉40%,推理速度也快了1.8倍。尤其适合那种特别长的代码或者文本处理,这对降低大模型的部署成本、提升干活效率太有帮助了。 第二是引入了稀疏FP8解码技术。这个技术能让运算速度变快的同时,把信息损失控制在5%以内。这就意味着哪怕是普通的电脑设备,也能跑出不错的性能。这技术一出来,想把AI用起来的门槛可是降了不少。 第三是专门针对最新的英伟达GPU架构做了适配。代码显示,“MODEL1”把目光锁定在了SM90和SM100这两块芯片上。需要注意的是,有些功能现在只对这个新架构开放,老版本的V3.2根本没法用。这也算是给大家提了个醒,这架构确实是换了个套路。 结合这些线索来看,“MODEL1”现在要么已经快训练完了,要么就正在部署的阶段。至于它到底是啥身份?大家也是众说纷纭。有人觉得它就是DeepSeek V4的内部代号,也有人猜是R系列的升级版R2。不管是哪样,这都说明DeepSeek这节奏是一点没停过。 仔细看看就会发现,DeepSeek走的路线跟很多大厂不太一样。人家不怎么折腾大算力,而是死磕工程效率和成本控制。这种选择在现在算力贵得要命、大家都喊难的背景下,确实看得挺远。 通过这次开源的代码更新,DeepSeek不仅展示了自己的本事,也给大伙儿指了条明路。今年他们动作确实不少,光是这两篇论文加上代码更新就已经让人很有期待感了。现在公司那边还没正式回应呢。不过这波操作已经让全世界的AI爱好者都在眼巴巴等着他们公布更多细节。开源社区的动静最能说明问题。这次出现的“MODEL1”不光是让人猜了一通新品的样子,更是显示出了中国企业在搞基础架构创新上的那股子劲头。现在AI发展这么快,这种把精力花在技术优化上的路子没准能给咱们指条新路呢。咱们就盼着他们快点把更多细节亮出来,好让咱们中国的智慧也能帮着推动AI技术往前迈一大步。