 <?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-CN">
		<id>http://wiki.sseuu.com/index.php?action=history&amp;feed=atom&amp;title=30%E7%BE%8E%E5%85%83%E5%A4%8D%E5%88%BBDeepSeek%EF%BC%9F%E6%9C%80%E6%96%B0%E5%BC%80%E6%BA%90AI%E9%A1%B9%E7%9B%AETinyZero%E6%A8%AA%E7%A9%BA%E5%87%BA%E4%B8%96</id>
		<title>30美元复刻DeepSeek？最新开源AI项目TinyZero横空出世 - 版本历史</title>
		<link rel="self" type="application/atom+xml" href="http://wiki.sseuu.com/index.php?action=history&amp;feed=atom&amp;title=30%E7%BE%8E%E5%85%83%E5%A4%8D%E5%88%BBDeepSeek%EF%BC%9F%E6%9C%80%E6%96%B0%E5%BC%80%E6%BA%90AI%E9%A1%B9%E7%9B%AETinyZero%E6%A8%AA%E7%A9%BA%E5%87%BA%E4%B8%96"/>
		<link rel="alternate" type="text/html" href="http://wiki.sseuu.com/index.php?title=30%E7%BE%8E%E5%85%83%E5%A4%8D%E5%88%BBDeepSeek%EF%BC%9F%E6%9C%80%E6%96%B0%E5%BC%80%E6%BA%90AI%E9%A1%B9%E7%9B%AETinyZero%E6%A8%AA%E7%A9%BA%E5%87%BA%E4%B8%96&amp;action=history"/>
		<updated>2026-05-07T02:24:37Z</updated>
		<subtitle>本wiki的该页面的版本历史</subtitle>
		<generator>MediaWiki 1.30.0</generator>

	<entry>
		<id>http://wiki.sseuu.com/index.php?title=30%E7%BE%8E%E5%85%83%E5%A4%8D%E5%88%BBDeepSeek%EF%BC%9F%E6%9C%80%E6%96%B0%E5%BC%80%E6%BA%90AI%E9%A1%B9%E7%9B%AETinyZero%E6%A8%AA%E7%A9%BA%E5%87%BA%E4%B8%96&amp;diff=122974&amp;oldid=prev</id>
		<title>2025年2月4日 (二) 21:57 江南仁</title>
		<link rel="alternate" type="text/html" href="http://wiki.sseuu.com/index.php?title=30%E7%BE%8E%E5%85%83%E5%A4%8D%E5%88%BBDeepSeek%EF%BC%9F%E6%9C%80%E6%96%B0%E5%BC%80%E6%BA%90AI%E9%A1%B9%E7%9B%AETinyZero%E6%A8%AA%E7%A9%BA%E5%87%BA%E4%B8%96&amp;diff=122974&amp;oldid=prev"/>
				<updated>2025-02-04T21:57:15Z</updated>
		
		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr style=&quot;vertical-align: top;&quot; lang=&quot;zh-CN&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;←上一版本&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;2025年2月4日 (二) 21:57的版本&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l4&quot; &gt;第4行：&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;第4行：&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;人工智能研究通常是巨头企业的专属游戏，这些公司拥有深厚的财力支持。然而，[[伯克利加州大学]]的一支研究团队却打破了这一局面。他们仅以30美元复制了DeepSeek R1-Zero的核心功能。他们的项目名为[[TinyZero]]，证明先进的人工智能推理模型并不需要耗费巨额资金。更重要的是，人工智能研究比以往任何时候都更容易接近。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;人工智能研究通常是巨头企业的专属游戏，这些公司拥有深厚的财力支持。然而，[[伯克利加州大学]]的一支研究团队却打破了这一局面。他们仅以30美元复制了DeepSeek R1-Zero的核心功能。他们的项目名为[[TinyZero]]，证明先进的人工智能推理模型并不需要耗费巨额资金。更重要的是，人工智能研究比以往任何时候都更容易接近。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;在Jiayi Pan的带领下，该团队旨在通过[[强化学习]](Reinforcement &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;Learning，RL&lt;/del&gt;)重新构建DeepSeek的推理模型。与依赖昂贵的云服务或巨大的计算能力不同，他们使用了一个基本的语言模型、一个简单的提示和一个奖励系统来训练TinyZero。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;在Jiayi Pan的带领下，该团队旨在通过[[强化学习]](&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;[[&lt;/ins&gt;Reinforcement &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;Learning]]，[[RL]]&lt;/ins&gt;)重新构建DeepSeek的推理模型。与依赖昂贵的云服务或巨大的计算能力不同，他们使用了一个基本的语言模型、一个简单的提示和一个奖励系统来训练TinyZero。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Pan在X平台上分享了他的兴奋之情，表示：“你可以亲身经历那一刻，只需不到30美元。”他还将[[TinyZero]]描述为第一个开源的推理模型复现项目，强调了它如何学会验证和完善自己的答案。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Pan在X平台上分享了他的兴奋之情，表示：“你可以亲身经历那一刻，只需不到30美元。”他还将[[TinyZero]]描述为第一个开源的推理模型复现项目，强调了它如何学会验证和完善自己的答案。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l32&quot; &gt;第32行：&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;第32行：&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;'''DeepSeek是如何训练的'''&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;'''DeepSeek是如何训练的'''&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;'''DeepSeek &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;R1通过创新的多阶段强化学习&lt;/del&gt;(RL)训练方法，采用组相关策略优化 (GRPO)，在复杂推理任务中表现不俗，甚至有望超越OpenAI的o1模型。'''&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;'''DeepSeek &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;R1通过创新的多阶段[[强化学习]]&lt;/ins&gt;(&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;[[&lt;/ins&gt;RL&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;]]&lt;/ins&gt;)训练方法，采用组相关策略优化 (GRPO)，在复杂推理任务中表现不俗，甚至有望超越OpenAI的o1模型。'''&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;DeepSeek AI发布了其最新的模型DeepSeek-R1，这是一款在复杂推理任务中与OpenAI的o1模型相媲美的开源模型。'''它采用了一种名为组相关策略优化([[GRPO]])的强化学习算法，并通过多阶段训练方法不断优化。'''这一新算法旨在提升大型语言模型(LLM)的推理能力，尤其在数学推理等领域表现尤为突出。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;DeepSeek AI发布了其最新的模型DeepSeek-R1，这是一款在复杂推理任务中与OpenAI的o1模型相媲美的开源模型。'''它采用了一种名为组相关策略优化([[GRPO]])的强化学习算法，并通过多阶段训练方法不断优化。'''这一新算法旨在提升大型语言模型(LLM)的推理能力，尤其在数学推理等领域表现尤为突出。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>江南仁</name></author>	</entry>

	<entry>
		<id>http://wiki.sseuu.com/index.php?title=30%E7%BE%8E%E5%85%83%E5%A4%8D%E5%88%BBDeepSeek%EF%BC%9F%E6%9C%80%E6%96%B0%E5%BC%80%E6%BA%90AI%E9%A1%B9%E7%9B%AETinyZero%E6%A8%AA%E7%A9%BA%E5%87%BA%E4%B8%96&amp;diff=122972&amp;oldid=prev</id>
		<title>江南仁：创建页面，内容为“{{4}} 伯克利团队以30美元复制DeepSeek AI的核心功能，推出开源项目TinyZero，证明AI研究不再是高成本领域，降低了进入门…”</title>
		<link rel="alternate" type="text/html" href="http://wiki.sseuu.com/index.php?title=30%E7%BE%8E%E5%85%83%E5%A4%8D%E5%88%BBDeepSeek%EF%BC%9F%E6%9C%80%E6%96%B0%E5%BC%80%E6%BA%90AI%E9%A1%B9%E7%9B%AETinyZero%E6%A8%AA%E7%A9%BA%E5%87%BA%E4%B8%96&amp;diff=122972&amp;oldid=prev"/>
				<updated>2025-02-04T21:53:33Z</updated>
		
		<summary type="html">&lt;p&gt;创建页面，内容为“{{4}} &lt;a href=&quot;/index.php?title=%E4%BC%AF%E5%85%8B%E5%88%A9%E5%9B%A2%E9%98%9F&quot; title=&quot;伯克利团队&quot;&gt;伯克利团队&lt;/a&gt;以30美元复制&lt;a href=&quot;/index.php?title=DeepSeek&quot; title=&quot;DeepSeek&quot;&gt;DeepSeek&lt;/a&gt; AI的核心功能，推出开源项目TinyZero，证明AI研究不再是高成本领域，降低了进入门…”&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新页面&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{4}}&lt;br /&gt;
[[伯克利团队]]以30美元复制[[DeepSeek]] AI的核心功能，推出开源项目TinyZero，证明AI研究不再是高成本领域，降低了进入门槛，推动了更广泛的技术应用。&lt;br /&gt;
&lt;br /&gt;
人工智能研究通常是巨头企业的专属游戏，这些公司拥有深厚的财力支持。然而，[[伯克利加州大学]]的一支研究团队却打破了这一局面。他们仅以30美元复制了DeepSeek R1-Zero的核心功能。他们的项目名为[[TinyZero]]，证明先进的人工智能推理模型并不需要耗费巨额资金。更重要的是，人工智能研究比以往任何时候都更容易接近。&lt;br /&gt;
&lt;br /&gt;
在Jiayi Pan的带领下，该团队旨在通过[[强化学习]](Reinforcement Learning，RL)重新构建DeepSeek的推理模型。与依赖昂贵的云服务或巨大的计算能力不同，他们使用了一个基本的语言模型、一个简单的提示和一个奖励系统来训练TinyZero。&lt;br /&gt;
&lt;br /&gt;
Pan在X平台上分享了他的兴奋之情，表示：“你可以亲身经历那一刻，只需不到30美元。”他还将[[TinyZero]]描述为第一个开源的推理模型复现项目，强调了它如何学会验证和完善自己的答案。&lt;br /&gt;
&lt;br /&gt;
'''如何开发TinyZero'''&lt;br /&gt;
&lt;br /&gt;
为了测试模型，研究人员选择了一个名为[[Countdown]]的游戏，玩家需要通过基本的数学运算来达到目标数字。尽管'''TinyZero最初是随机猜测，但随着时间的推移，它学会了验证自己的答案、寻找更好的解决方案并相应地进行调整。'''&lt;br /&gt;
&lt;br /&gt;
'''他们尝试了不同规模的模型，从50亿参数到700亿参数。结果是什么？参数规模较小的模型(50亿参数)只是随机猜测答案然后停止。而参数规模较大的模型(150亿参数及以上)则学会了自我验证、完善解决方案并显著提高了准确率。'''&lt;br /&gt;
&lt;br /&gt;
TinyZero真正引人注目的地方在于，与传统的人工智能模型相比，它的成本低得惊人。看看这些对比：&lt;br /&gt;
&lt;br /&gt;
* OpenAI的API：每百万tokens收费15美元&lt;br /&gt;
&lt;br /&gt;
* DeepSeek-R1：每百万tokens收费0.55美元&lt;br /&gt;
&lt;br /&gt;
* TinyZero的总成本：一次性训练成本30美元&lt;br /&gt;
&lt;br /&gt;
这意味着任何人(不仅仅是大型科技公司)都可以在无需烧钱到破产的情况下实验人工智能推理模型。&lt;br /&gt;
&lt;br /&gt;
'''可用性'''&lt;br /&gt;
&lt;br /&gt;
[[TinyZero]]是开源的，并且可以在[[GitHub]]上找到，因此任何人都可以尝试改进它。尽管它目前仅在Countdown游戏中进行了测试，但潘佳乂希望这个项目能够使强化学习研究更加普及。&lt;br /&gt;
&lt;br /&gt;
当然，这仍然是一个早期阶段。“当然，其中一个缺点是，它仅在Countdown任务中得到了验证，但尚未在一般推理领域中得到验证。”Pan承认。但即便如此，其影响仍然是显而易见的：人工智能的发展并不一定要昂贵。有了像TinyZero这样的项目，低成本、开源的人工智能或许将成为未来的趋势。&lt;br /&gt;
&lt;br /&gt;
'''DeepSeek是如何训练的'''&lt;br /&gt;
&lt;br /&gt;
'''DeepSeek R1通过创新的多阶段强化学习(RL)训练方法，采用组相关策略优化 (GRPO)，在复杂推理任务中表现不俗，甚至有望超越OpenAI的o1模型。'''&lt;br /&gt;
&lt;br /&gt;
DeepSeek AI发布了其最新的模型DeepSeek-R1，这是一款在复杂推理任务中与OpenAI的o1模型相媲美的开源模型。'''它采用了一种名为组相关策略优化([[GRPO]])的强化学习算法，并通过多阶段训练方法不断优化。'''这一新算法旨在提升大型语言模型(LLM)的推理能力，尤其在数学推理等领域表现尤为突出。&lt;br /&gt;
&lt;br /&gt;
[[文件:TinyZero1.jpg]]&lt;br /&gt;
&lt;br /&gt;
30美元复刻DeepSeek？最新开源AI项目TinyZero横空出世&lt;br /&gt;
&lt;br /&gt;
'''GRPO的核心概念是通过取消对价值函数模型的依赖来简化训练过程。'''这一创新不仅减少了内存消耗和计算开销，还能通过组内得分来估算基准，从而优化模型性能。与传统的Proximal Policy Optimization(PPO)不同，GRPO不依赖单独的价值函数，而是使用多个输出的平均奖励作为基准进行优化。通过这种方式，模型可以更自然地处理多输出的情况，如同在处理单一输入时一样。&lt;br /&gt;
&lt;br /&gt;
DeepSeek团队在构建DeepSeek R1的过程中，首先基于DeepSeek V3进行强化学习实验，尝试应用GRPO对无监督推理文本进行补全。使用规则奖励模型，重点评估格式、数学和编程等领域的表现。比如，通过奖励准确性来评估是否得出了正确的答案，或者是否解决了[[LeetCode]]问题；通过奖励格式来确保模型在思考过程中，能将其思维过程清晰地表达出来。&lt;br /&gt;
&lt;br /&gt;
[[文件:TinyZero2.jpg]]&lt;br /&gt;
&lt;br /&gt;
30美元复刻DeepSeek？最新开源AI项目TinyZero横空出世&lt;br /&gt;
&lt;br /&gt;
这些措施显著提升了DeepSeek R1在AIME 2024的表现，Pass@1得分从15.6%跃升至71.0%，接近OpenAI o1-0912的水平。随着问题的解答中token的数量增加，模型表现出自然地学会了在更长时间内思考并生成更多tokens来完成任务。&lt;br /&gt;
&lt;br /&gt;
然而，这种进步并非没有代价。早期的模型输出可读性较差，语言混杂，但通过多阶段的训练方法，这一问题得到了解决。&lt;br /&gt;
&lt;br /&gt;
在训练过程中，DeepSeek R1经历了四个关键阶段，以确保模型的稳定性和有效性。首先，团队进行了监督微调(SFT)，以解决强化学习冷启动阶段的不稳定问题，并使用了包含大量链式思维(CoT)的数据集。接下来，模型在代码和数学等推理任务中应用[[GRPO]]，加入了“语言一致性”的奖励，以确保模型语言风格的一致性。第三阶段，通过拒绝采样(RS)生成大量合成数据集，重点提高模型在写作和角色扮演等通用任务中的能力。最后，在第四阶段，[[GRPO]]再次被应用，以结合规则和结果奖励模型，进一步优化模型的有用性和无害性，从而最终形成了DeepSeek R1。&lt;br /&gt;
&lt;br /&gt;
[[文件:TinyZero3.jpg]]&lt;br /&gt;
&lt;br /&gt;
30美元复刻DeepSeek？最新开源AI项目TinyZero横空出世&lt;br /&gt;
&lt;br /&gt;
其中，DeepSeek团队有几项惊人的选择和发现。与许多模型不同，DeepSeek并没有使用[[蒙特卡洛树搜索]]([[MCTS]])或过程奖励模型([[PRM]])。而且，通过在应用[[GRPO]]之前进行微调，训练过程变得更快、更稳定。特别是，基于准确性和格式的规则奖励，往往比复杂的奖励模型更加有效。&lt;br /&gt;
&lt;br /&gt;
通过这一系列创新的训练步骤，DeepSeek R1不仅在推理能力上取得了显著进展，还能在各种任务中展现出更高的实用性和一致性。&lt;br /&gt;
&lt;br /&gt;
[https://www.msn.cn/zh-cn/news/other/30%E7%BE%8E%E5%85%83%E5%A4%8D%E5%88%BBdeepseek-%E6%9C%80%E6%96%B0%E5%BC%80%E6%BA%90ai%E9%A1%B9%E7%9B%AEtinyzero%E6%A8%AA%E7%A9%BA%E5%87%BA%E4%B8%96/ar-AA1ymxIh?ocid=msedgntp&amp;amp;pc=CNNDDB&amp;amp;cvid=67a1e39039524d329b81d943bb4e80d5&amp;amp;ei=29 本文由小黑盒作者@Hylon1996于02月04日发布]&lt;/div&gt;</summary>
		<author><name>江南仁</name></author>	</entry>

	</feed>