从开源大模型到开源大模型，这家公司在ai圈子里挺有名气，最近有个挺值得一看的报告

DeepSeek这家公司在AI圈子里挺有名气，最近他们有个挺值得一看的报告，总共19页。这份报告主要讲的是他们怎么从一个刚成立不久的企业变成了开源大模型领域的领头羊。 2023年7月，幻方量化公司出资设立了DeepSeek，这个团队当时也就不到140人，架构特别扁平，核心人才基本都来自国内顶尖的高校。梁文锋绝对控股这家公司，没有找过外部的投资。结果没两年到了2025年9月，估值一下子冲到了1.05万亿元，全球排第三。技术上他们有自己的体系，V系列和R系列轮流更新，最大的特点就是省钱还好用。特别是2024年12月出的那个DeepSeek-V3，训练成本只要557万美元。他们搞了一套MoE架构和MLA机制，让性能能跟GPT-4平起平坐，推理速度和内存利用率也都提升不少。2025年1月的DeepSeek-R1就更厉害了，推理能力直接对标OpenAI-o1，成本却只有人家的三十分之一。他们还能用强化学习让模型自己变聪明，不用老靠人标注数据。这种方法甚至还能帮小模型提性能，让AI能在实际的工作场景里低成本落地。因为这些技术做得好，DeepSeek出了个App用户量涨得特别快，成了全球增速最快的AI应用之一。累积的调用量也排在全球开源大模型的第一位。未来发展方面，他们打算在2026年2月中旬搞出新一代的旗舰模型V4。据说内部测试的时候，代码生成的能力比Claude和GPT系列还要强。最近他们还搞了Engram记忆模块和DeepSeek OCR2这些新东西，在长文本处理和文档理解上都有突破。这些都是为了以后的升级做准备。商业化这块儿也挺火。现在大家都不怎么比谁家模型强了，更看重能不能真正落地干活。DeepSeek靠着开源的策略和便宜的部署成本，变成了国内AI通用基础设施的代名词。他们的模型已经进了云厂商和三大运营商的系统里了。在办公、汽车、医疗这些行业他们都有合作。智能编程是他们的一个重点场景，现在全球市场规模增长得很快。他们也在往智能体领域使劲儿打算弄一个多模态的搜索引擎。以后他们还想把产品矩阵铺得更开一些给更多的B端和C端应用用商业化潜力肯定很大。