周年回顾|DeepSeek如何改变开源AI

时间:2026-01-22来源:

在DeepSeek R1发布一周年之际,让我们一起来回顾DeepSeek究竟是如何改变了开源AI —— R1并不是当时最强的模型,真正意义而在于它如何降低了三重壁垒。

i. 技术壁垒:通过公开分享其推理路径和后训练方法,R1将曾经封闭在API背后的高级推理能力,转变为可下载、可蒸馏、可微调的工程资产,推理开始表现得像一个可复用的模块,在不同的系统中反复应用。这也推动行业重新思考模型能力与计算成本之间的关系,这种转变在中国这样算力受限的环境中尤为有意义。

ii. 采用壁垒:R1以MIT许可证发布,使其使用、修改和再分发变得简单直接。随着分发限制的解除,模型迅速扩散到云平台和工具链中,R1超越了研究产物的范畴,成为了可复用的工程基础。原本依赖闭源模型的公司开始直接将R1投入生产,蒸馏、二次训练和领域适应变成了常规的工程工作,而非特殊项目。

iii. 心理壁垒:当问题从“我们能做这个吗?”转变为“我们如何做好这个?”时,许多公司的决策都发生了变化。对中国AI社区而言,这也是一个难得的、获得全球持续关注的时刻,对于一个长期被视为跟随者的生态系统来说,这一点至关重要。

640-6.jpeg

2025年1月20日,DeepSeek-R1正式发布。从此,国产大模型第一次走到了全球舞台的核心位置,开启了开源时代。

DeepSeek-R1的关键突破

从技术上看,DeepSeek-R1的关键突破,并不在某一个单点技巧,而在一整套系统性设计。在传统SFT/RLHF体系中,最终答案的「正确性」是唯一目标。R1则引入了更细粒度的信号。这也是第一次,模型高密度推理数据,而非高密度知识R1的训练数据,不追求百科全书式的覆盖,而是高度聚焦在数学与逻辑推导、可验证的复杂任务。因此,R1才在数学、代码、复杂推理上,呈现出跨尺度的跃迁。

R1证明了在推理维度,开源模型不是追随者,而可以成为范式定义者。同时,改变了工程师与模型的协作方式,当模型开始“展示思路”,人类就不再是提问者而是合作者。

回到今天R1仍然是一条未走完的路,一周年并不是终点,推理能力还有明显上限,长链路思考仍然昂贵。但正如R1做出的选择一样,真正重要的不是已经解决了什么,而是方向是否正确。

这一年只是序章

在前两天的深夜,DeepSeek的一个存储库进行了更新,引用了一个全新的「model 1」模型。DeepSeek-R1的故事还在继续 —— 在DeepSeek-R1发布一周年之际,核心算法库惊现model 1,是V4还是R2?

而这个model 1极有可能就是R2。在DeepSeek的开源项目FlashMLA库代码片段明确引用了model 1,并且伴随针对KV缓存的新优化,和576B步幅的稀疏FP8解码支持。FlashMLA是DeepSeek的优化注意力内核库,为DeepSeek-V3和DeepSeek-V3.2-Exp模型提供支持。

IMG_7E316253C01F-1.jpeg

FlashMLA是DeepSeek为Hopper架构GPU(如H800)优化的MLA(Multi-head Latent Attention)解码内核。在推理层代码中提及新模型ID,往往意味着该新模型将继续复用或改进现有的MLA架构,而项目里大约有28处提到model 1,这可以被解读为新模型即将发布的明确信号。并且巧的是,这个爆料正好赶在DeepSeek-R1发布一周年(2025年1月20日)。

R1作为开源推理模型,曾匹敌OpenAI o1并登顶iOS App Store,此后彻底改变了开源AI社区。model 1即便不是R2也意义非凡,毕竟FlashMLA是DeepSeek优化的注意力核心算法库。

不过,DeepSeek之前的确遇到了一些麻烦,在研发其新一代旗舰模型时,遇到算力问题。但DeepSeek及时调整了策略,准备在“未来几周内”推出这款新模型。

关键词: DeepSeek 开源 AI

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版