刘知远硬核解读 DeepSeek:大模型强化学习技术原理与大模型技术发展研判
核心提示:来源| OpenBMB开源社区作者 | 刘知远2月2日晚,CCF-Talk 举办了主题为“夜话DeepSeek:技术原理与未来方向“的线上研讨会。清华
来源 | OpenBMB开源社区

2月2日晚,CCF-Talk 举办了主题为“夜话DeepSeek:技术原理与未来方向“的线上研讨会。清华大学长聘副教授、面壁智能首席科学家刘知远老师作为主讲嘉宾之一,为大家带来了关于“大模型强化学习技术原理与大模型技术发展研判”的精彩演讲。在圆桌环节,还围绕业界热点话题做了探讨:如何复现o1大推理模型?DeepSeek R1技术路线和训练流程有哪些亮点?为什么DeepSeek能做到轰动全球?DeepSeek 通过哪些优化策略有效降低成本?DeepSeek 的写作能力为何飞跃?MoE 架构会是最优解吗?PTX 是否真正做到了绕开 CUDA 的垄断?刘知远表示,OpenAI o1 相当于引爆了一颗原子弹,但没有告诉大家秘方。DeepSeek 则可能是全球首个能够通过纯粹的强化学习技术复现 OpenAI o1 能力的团队,他们通过开源并发布相对详细的介绍,为行业发展做出了重要贡献。由于开源,DeepSeek R1 让全世界意识到深度思考的能力,相当于让整个人工智能领域迎来了类似于 2023 年初的 ChatGPT 时刻。大家感受到大模型的能力又往前迈进了一大步。我们应该学习的是他们的技术理想、坚持与方法论。Q1: DeepSeek 的成功因素里,最有亮点的一个技术是什么?DeepSeek V3 给我们的重要启示在于,它展示了如何用 1/10 甚至更少的成本完成达到 GPT-4 和 GPT-4o 水平的能力。正如刚才季东老师和戴老师提到的,DeepSeek V3 在底层算力加速方面做了大量工作。但更重要的是,翟老师特别强调了 DeepSeek V3 实现了算法和底层软硬件的协同优化。这种一体化优化机制让大家看到,即使成本已经很低,但仍然可以通过优化进一步降低成本。虽然 V3 的成本仍然是几百万美元甚至几千万美元,但相比国际上公认的水平,已经低得多。这也是英伟达股价下降的一个重要原因。DeepSeek R1 的启示在于,OpenAI犯了“傲慢之罪”——它不开源,不公开技术细节,且定价过高,导致其无法出圈。而 DeepSeek 的 R1 则开源且免费,让全球用户都能使用,并且公开了所有技术细节。这使得 DeepSeek 在历史上占据了原本应该属于 OpenAI 的位置,就像当年的 ChatGP T一样。DeepSeek 通过极致优化有限资源,成功追赶上了国际最先进的模型,我觉得干的非常漂亮,并且通过开源让全球都认识到中国团队的创新能力。Q2:为什么 DeepSeek 的 R1 模型在这个时间点出现?之前有没有基于基础模型直接做强化学习的尝试?之前也有模型在思维链上做过类似工作,为什么 DeepSeek 的 R1 模型会如此出圈?刘知远: 我觉得这件事情还是具有一定的必然性。大概在 2024 年的时候,很多投资人,甚至一些不从事人工智能领域的人,会来问我:中国的AI和美国的AI相比,到底是差距变大了还是变小了?我当时明确表示,我们认为中国正在非常快速地追赶,与美国最先进的技术之间的差距正在逐渐缩小。尽管我们面临一些限制,但这种追赶是显而易见的。一个重要的现象可以验证这一点:2023 年初 ChatGPT 和后面 GPT-4 发布后,国内团队复现这两个版本的模型大概都花了一年时间。2023 年底,国内团队复现了 ChatGPT 水平的模型能力;2024 年四五月份,一线团队复现了 GPT-4 水平的能力。但随后你会发现,像 Sora、GPT-4o 这样的模型,基本上都是国内团队在大约半年内完成复现的。这意味着,像 o1 这样的模型能力,国内团队在半年左右复现是可预期的。DeepSeek 本身非常出色,其价值不仅在于能够复现,还在于它以极低的成本做到了这一点。这是它的独到之处,也是它脱颖而出的原因。但无论如何,国内一线团队能够在半年左右复现 o1 水平的模型能力,我认为这是可以预期的。DeepSeek 能够更快、更低成本、更高效地完成这项工作,这是它的巨大贡献。从这个角度看,我认为有一定的必然性。当然,DeepSeek 能够达到这样的出圈效果,也离不开它自身团队的长期积累,这正如刚才锡鹏老师提到的那样。Q3: (评论区问题)刚刚知远老师 PPT 里提到的能力密度是如何定义的?它的内在原因是什么?参考文章: Densing Law:寻找Scaling Law之后,大模型成长新曲线!论文链接: https://arxiv.org/pdf/2412.04315v2刘知远:这个“能力密度”的概念是我们最近半年提出的。关于如何有效地、准确地衡量能力密度,大家可以参考我们发表在 arxiv 上的论文,论文题目是《Densing law of LLMs》。所谓的能力密度,可以理解为模型在各种评测集上展现出来的能力,除以其参数规模,或者说是激活的参数规模。我们观察过去一年半发布的代表性模型,发现其能力密度大约每 100 天增加一倍。这意味着每过 100 天,我们可以用一半的参数实现相同的能力。这一现象背后有多个因素影响:1. 数据质量:更高的数据质量取决于数据治理。高质量的数据能够提升模型的训练效果。2. 模型架构:采用更稀疏激活的模型架构,可以用更少的激活参数承载更多的能力。3. 学习方法:包括 OpenAI 在内的所有一线团队都在开展所谓的“scaling prediction”。在真正训练模型之前,我们会进行大量的风洞实验,积累各种预测数据,以确定模型需要什么样的数据配比和超参配置,从而达到最佳效果。综合这些因素,模型可以用更少的参数承载更多的能力。我们将这一现象类比为芯片行业的摩尔定律。摩尔定律告诉我们,每 18 个月,芯片上的电路密度会增加一倍。这一过程是通过不断的技术发展实现的。进一步结合刚才翟老师和国浩老师提到的底层算力优化,我们可以将这种优化映射到模型训练阶段,从而极大地降低成本。当然,我们并不是说 DeepSeek 的算力可以用 1/10 的成本实现与国外模型相同的能力,但这与 Densing law(能力密度定律)有一定的重叠。Densing Law 更多地强调模型密度的不断提高,这不仅体现在训练阶段成本的降低,也体现在推理阶段。模型可以用更低的推理成本和更快的推理速度完成相同的能力。我们认为,未来AI的发展一定会沿着这条路线前进。过去几年的发展也在不断验证这一点。一个直观的体验是,像 OpenAI 这样的公司,其API模型的价格(例如 ChatGPT 水平的模型和 GPT-4水平的模型)在过去几年中快速下降。这不仅仅是因为价格战,而是因为它们可以用更少的资源实现相同的能力,从而以更低的成本提供服务。我们认为,高效性是未来AI发展的一个重要方向,也是我们迎来智能革命的一个重要前提。Q4: MoE 架构会是通向 AGI 道路上的最优解吗?在2023年初,OpenAI 发布 ChatGPT 时,它做对了;它发布 GPT-4时,也做对了。但当它发布 o1 时,它做错了——它没有开源,定价策略也出现了失误。这反而成就了 DeepSeek。我也不认为 DeepSeek 选择了 MoE 架构,MoE 就永远是正确的。没有任何证据证明 MoE 是最优的模型架构。从学术角度和AI未来发展的角度来看,我认为这是一个开放性的问题。未来如何实现高效性?我认为一定是模块化和稀疏激活的,但具体如何稀疏激活、如何模块化?我觉得这件事情本身应该是百花齐放的。我们应该保持开放性,鼓励学生和从业者像 DeepSeek 一样努力去探索创新。所以,我本身不太认为 MoE 有任何绝对的壁垒,或者它一定是最优的方法。Q5:DeepSeek 技术的爆发,对于中国大模型未来发展道路有哪些启示?刘知远:首先,我觉得特别值得敬佩的是DeepSeek团队的技术理想主义。因为无论是看他们的访谈还是其他资料,你会发现,那些访谈其实是在 DeepSeek 大火之前很久接受的,内容非常真实,能够反映他们内在的底层逻辑。从这一点上,我们可以感受到 DeepSeek 是一个非常具有技术理想主义的团队,以实现 AGI 作为梦想来组建这个团队。我觉得这一点是非常值得敬佩的。我觉得同时也会看到,DeepSeek 的梁文峰之前做量化投资,本身投入自己的资金来开展项目,没有资金上的困扰。那么相对应地,我觉得中国应该为这样的技术理想主义团队提供支持,哪怕他们没有足够的资金,也能让他们没有后顾之忧地去进行探索。我觉得中国已经到了这样的阶段,需要有更多像 DeepSeek 这样的团队,但又不像 DeepSeek 这样有资金。能否让他们踏踏实实地去做一些原始创新,做一些出色的工作,这是我觉得非常值得我们思考的第一点。第二点,我觉得是他们的执行力。DeepSeek 今年这两个月一炮而红,大家会觉得很厉害,但实际上,这是经过了多年持续积累的结果。我们看到的是他们不断积累的进步,量变最终产生了质变。我可以告诉大家,几年前,幻方就拿着免费算力去吸引我们的学生,与他们建立联系。当然,也有学生毕业后加入了 DeepSeek。所以,这是他们多年努力的结果。我认为这也是技术理想主义推动下的长期主义成果。我觉得国内应该有更多的团队,能够坐得住冷板凳,更加聚焦,在一些重要问题上持续发力,做出有意义的工作。DeepSeek 发展到今天,我认为他们所做的工作可能也是在“摸着 OpenAI 过河”,以 OpenAI 为榜样,去探索 AGI 的实现路径,并努力去做他们认为正确的事情。这个过程非常困难,尤其是随着 OpenAI 变得越来越封闭,o1 复现的难度比当年的 ChatGPT 更大。但我们会看到,只要有理想和执行力,他们就能做到。所以在我看来,国内应该有更多的团队去学习。具体的技术当然是我们应该学习的一部分,但我觉得应该避免认为因为 DeepSeek 成功了,所以他们所做的一切都是对的。我觉得不一定他们所用的所有技术都是最先进的。我觉得没有必要因为 DeepSeek 这次成功用了这样那样的技术,就认为它们全都是对的。我觉得这反而会限制我们的创新。我觉得我们应该学习的是他们的理想,学习的是他们的坚持,学习的是他们的方法论。
本文地址:http://www.tpjde.com/news/12983.html
推平第 http://www.tpjde.com/ , 查看更多