 <?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-CN">
		<id>http://wiki.sseuu.com/index.php?action=history&amp;feed=atom&amp;title=ChatGPT%E5%AF%B9%E8%AF%9D%3A%E5%85%B3%E4%BA%8E%E5%A4%A7%E8%A7%84%E6%A8%A1%E8%AF%AD%E8%A8%80%E8%AE%AD%E7%BB%83%E7%9A%84%E6%96%87%E6%9C%AC%E6%A0%B7%E6%9C%AC%E9%97%AE%E9%A2%98</id>
		<title>ChatGPT对话:关于大规模语言训练的文本样本问题 - 版本历史</title>
		<link rel="self" type="application/atom+xml" href="http://wiki.sseuu.com/index.php?action=history&amp;feed=atom&amp;title=ChatGPT%E5%AF%B9%E8%AF%9D%3A%E5%85%B3%E4%BA%8E%E5%A4%A7%E8%A7%84%E6%A8%A1%E8%AF%AD%E8%A8%80%E8%AE%AD%E7%BB%83%E7%9A%84%E6%96%87%E6%9C%AC%E6%A0%B7%E6%9C%AC%E9%97%AE%E9%A2%98"/>
		<link rel="alternate" type="text/html" href="http://wiki.sseuu.com/index.php?title=ChatGPT%E5%AF%B9%E8%AF%9D:%E5%85%B3%E4%BA%8E%E5%A4%A7%E8%A7%84%E6%A8%A1%E8%AF%AD%E8%A8%80%E8%AE%AD%E7%BB%83%E7%9A%84%E6%96%87%E6%9C%AC%E6%A0%B7%E6%9C%AC%E9%97%AE%E9%A2%98&amp;action=history"/>
		<updated>2026-05-08T01:25:50Z</updated>
		<subtitle>本wiki的该页面的版本历史</subtitle>
		<generator>MediaWiki 1.30.0</generator>

	<entry>
		<id>http://wiki.sseuu.com/index.php?title=ChatGPT%E5%AF%B9%E8%AF%9D:%E5%85%B3%E4%BA%8E%E5%A4%A7%E8%A7%84%E6%A8%A1%E8%AF%AD%E8%A8%80%E8%AE%AD%E7%BB%83%E7%9A%84%E6%96%87%E6%9C%AC%E6%A0%B7%E6%9C%AC%E9%97%AE%E9%A2%98&amp;diff=120096&amp;oldid=prev</id>
		<title>2023年4月12日 (三) 11:47 江南仁</title>
		<link rel="alternate" type="text/html" href="http://wiki.sseuu.com/index.php?title=ChatGPT%E5%AF%B9%E8%AF%9D:%E5%85%B3%E4%BA%8E%E5%A4%A7%E8%A7%84%E6%A8%A1%E8%AF%AD%E8%A8%80%E8%AE%AD%E7%BB%83%E7%9A%84%E6%96%87%E6%9C%AC%E6%A0%B7%E6%9C%AC%E9%97%AE%E9%A2%98&amp;diff=120096&amp;oldid=prev"/>
				<updated>2023-04-12T11:47:00Z</updated>
		
		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr style=&quot;vertical-align: top;&quot; lang=&quot;zh-CN&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;←上一版本&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;2023年4月12日 (三) 11:47的版本&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l1&quot; &gt;第1行：&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;第1行：&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;{{4}}&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;{{4}}&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[文件:ChatGPT02.png|30px]]'''&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;上次我问到训练数据的数量，您说要几十万到几百万的文本样本。我现在想知道文本样本的单位或组成形式。&lt;/del&gt;'''&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[文件:ChatGPT02.png|30px]]'''&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;上次我问到虚拟人训练数据的数量，您说最少要几十万到几百万的文本样本。我现在想知道文本样本的单位或组成形式。&lt;/ins&gt;'''&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[文件:ChatGPT00.png|30px]]文本数据的单位通常是句子或者段落。在训练语言模型时，通常会将大量的句子或段落作为输入数据来训练模型。这些句子或段落可以是从各种来源中获取的，如维基百科、新闻报道、社交媒体、博客、书籍、论文等等。通常来说，这些数据都会经过一定的预处理，例如分词、去除停用词、标点符号等等，以便让机器学习算法更好地处理这些数据。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[文件:ChatGPT00.png|30px]]文本数据的单位通常是句子或者段落。在训练语言模型时，通常会将大量的句子或段落作为输入数据来训练模型。这些句子或段落可以是从各种来源中获取的，如维基百科、新闻报道、社交媒体、博客、书籍、论文等等。通常来说，这些数据都会经过一定的预处理，例如分词、去除停用词、标点符号等等，以便让机器学习算法更好地处理这些数据。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>江南仁</name></author>	</entry>

	<entry>
		<id>http://wiki.sseuu.com/index.php?title=ChatGPT%E5%AF%B9%E8%AF%9D:%E5%85%B3%E4%BA%8E%E5%A4%A7%E8%A7%84%E6%A8%A1%E8%AF%AD%E8%A8%80%E8%AE%AD%E7%BB%83%E7%9A%84%E6%96%87%E6%9C%AC%E6%A0%B7%E6%9C%AC%E9%97%AE%E9%A2%98&amp;diff=120095&amp;oldid=prev</id>
		<title>2023年4月12日 (三) 11:39 江南仁</title>
		<link rel="alternate" type="text/html" href="http://wiki.sseuu.com/index.php?title=ChatGPT%E5%AF%B9%E8%AF%9D:%E5%85%B3%E4%BA%8E%E5%A4%A7%E8%A7%84%E6%A8%A1%E8%AF%AD%E8%A8%80%E8%AE%AD%E7%BB%83%E7%9A%84%E6%96%87%E6%9C%AC%E6%A0%B7%E6%9C%AC%E9%97%AE%E9%A2%98&amp;diff=120095&amp;oldid=prev"/>
				<updated>2023-04-12T11:39:40Z</updated>
		
		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr style=&quot;vertical-align: top;&quot; lang=&quot;zh-CN&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;←上一版本&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: white; color:black; text-align: center;&quot;&gt;2023年4月12日 (三) 11:39的版本&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l10&quot; &gt;第10行：&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;第10行：&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[文件:ChatGPT00.png|30px]]当训练一个自然语言处理模型时，可以使用多种类型的文本数据，例如：&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[文件:ChatGPT00.png|30px]]当训练一个自然语言处理模型时，可以使用多种类型的文本数据，例如：&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;维基百科文章：维基百科是一个包含数百万文章的免费在线百科全书。这些文章涵盖了各种主题，包括历史、科学、艺术、文化等等。这些文章是非常有用的训练数据，因为它们通常具有高质量的语言表达和丰富的词汇。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;1.&lt;/ins&gt;维基百科文章：维基百科是一个包含数百万文章的免费在线百科全书。这些文章涵盖了各种主题，包括历史、科学、艺术、文化等等。这些文章是非常有用的训练数据，因为它们通常具有高质量的语言表达和丰富的词汇。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;新闻报道：新闻报道通常包含各种类型的文章，从政治新闻到娱乐新闻等等。这些文章通常使用规范的语言和结构，因此对于训练语言模型非常有用。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;2.&lt;/ins&gt;新闻报道：新闻报道通常包含各种类型的文章，从政治新闻到娱乐新闻等等。这些文章通常使用规范的语言和结构，因此对于训练语言模型非常有用。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;社交媒体：社交媒体平台，例如Twitter、Facebook和Instagram，提供了大量的用户生成内容，包括短消息、评论和帖子。这些内容通常包含口语表达和缩写，因此可以帮助训练语言模型更好地理解口语表达方式。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;3.&lt;/ins&gt;社交媒体：社交媒体平台，例如Twitter、Facebook和Instagram，提供了大量的用户生成内容，包括短消息、评论和帖子。这些内容通常包含口语表达和缩写，因此可以帮助训练语言模型更好地理解口语表达方式。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;书籍：电子书是训练语言模型的另一个非常有用的数据来源。这些书籍通常具有高质量的语言表达和良好的文本结构，因此对于训练语言模型非常有用。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;4.&lt;/ins&gt;书籍：电子书是训练语言模型的另一个非常有用的数据来源。这些书籍通常具有高质量的语言表达和良好的文本结构，因此对于训练语言模型非常有用。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;电影字幕：电影字幕包含了对话文本，这些对话文本可以被用来训练自然语言处理模型，例如语音识别、文本分类等。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;5.&lt;/ins&gt;电影字幕：电影字幕包含了对话文本，这些对话文本可以被用来训练自然语言处理模型，例如语音识别、文本分类等。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;总之，文本数据的来源非常广泛，可以是从各种媒体平台中获取的，例如网页、社交媒体、书籍、电影等等。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;总之，文本数据的来源非常广泛，可以是从各种媒体平台中获取的，例如网页、社交媒体、书籍、电影等等。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l26&quot; &gt;第26行：&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;第26行：&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[文件:ChatGPT00.png|30px]]当涉及到句子或段落时，以下是一些例子：&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;[[文件:ChatGPT00.png|30px]]当涉及到句子或段落时，以下是一些例子：&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;句子：The quick brown fox jumps over the lazy dog. 这是一个经典的英文句子，用于演示字母表的所有字母。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;1.&lt;/ins&gt;句子：The quick brown fox jumps over the lazy dog. 这是一个经典的英文句子，用于演示字母表的所有字母。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;句子：春天到了，万物复苏。这是一个中文句子，用于描述春天的到来和大自然的变化。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;2.&lt;/ins&gt;句子：春天到了，万物复苏。这是一个中文句子，用于描述春天的到来和大自然的变化。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;段落：霍金先生是一位著名的物理学家和天体物理学家。他被认为是现代宇宙学的奠基人之一。他的许多作品，如《时间简史》和《宇宙在大爆炸之后的发展》等，被广泛认为是现代科学史上的重要贡献。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;3.&lt;/ins&gt;段落：霍金先生是一位著名的物理学家和天体物理学家。他被认为是现代宇宙学的奠基人之一。他的许多作品，如《时间简史》和《宇宙在大爆炸之后的发展》等，被广泛认为是现代科学史上的重要贡献。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;段落：在今天的会议上，我们讨论了公司的财务状况和未来计划。我们发现公司目前的利润率相对较低，需要采取措施来提高利润率。我们还讨论了未来的市场前景和扩张计划，以及如何更好地与客户沟通和营销。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color:black; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;4.&lt;/ins&gt;段落：在今天的会议上，我们讨论了公司的财务状况和未来计划。我们发现公司目前的利润率相对较低，需要采取措施来提高利润率。我们还讨论了未来的市场前景和扩张计划，以及如何更好地与客户沟通和营销。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;br&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;这些例子展示了句子和段落的不同形式和用途，作为训练语言模型的基本单位，可以在许多自然语言处理任务中使用。&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f9f9f9; color: #333333; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #e6e6e6; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;这些例子展示了句子和段落的不同形式和用途，作为训练语言模型的基本单位，可以在许多自然语言处理任务中使用。&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>江南仁</name></author>	</entry>

	<entry>
		<id>http://wiki.sseuu.com/index.php?title=ChatGPT%E5%AF%B9%E8%AF%9D:%E5%85%B3%E4%BA%8E%E5%A4%A7%E8%A7%84%E6%A8%A1%E8%AF%AD%E8%A8%80%E8%AE%AD%E7%BB%83%E7%9A%84%E6%96%87%E6%9C%AC%E6%A0%B7%E6%9C%AC%E9%97%AE%E9%A2%98&amp;diff=120094&amp;oldid=prev</id>
		<title>江南仁：创建页面，内容为“{{4}} 30px'''上次我问到训练数据的数量，您说要几十万到几百万的文本样本。我现在想知道文本样本的单位...”</title>
		<link rel="alternate" type="text/html" href="http://wiki.sseuu.com/index.php?title=ChatGPT%E5%AF%B9%E8%AF%9D:%E5%85%B3%E4%BA%8E%E5%A4%A7%E8%A7%84%E6%A8%A1%E8%AF%AD%E8%A8%80%E8%AE%AD%E7%BB%83%E7%9A%84%E6%96%87%E6%9C%AC%E6%A0%B7%E6%9C%AC%E9%97%AE%E9%A2%98&amp;diff=120094&amp;oldid=prev"/>
				<updated>2023-04-12T11:21:37Z</updated>
		
		<summary type="html">&lt;p&gt;创建页面，内容为“{{4}} &lt;a href=&quot;/index.php?title=%E6%96%87%E4%BB%B6:ChatGPT02.png&quot; title=&quot;文件:ChatGPT02.png&quot;&gt;30px&lt;/a&gt;&amp;#039;&amp;#039;&amp;#039;上次我问到训练数据的数量，您说要几十万到几百万的文本样本。我现在想知道文本样本的单位...”&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新页面&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{4}}&lt;br /&gt;
[[文件:ChatGPT02.png|30px]]'''上次我问到训练数据的数量，您说要几十万到几百万的文本样本。我现在想知道文本样本的单位或组成形式。'''&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[文件:ChatGPT00.png|30px]]文本数据的单位通常是句子或者段落。在训练语言模型时，通常会将大量的句子或段落作为输入数据来训练模型。这些句子或段落可以是从各种来源中获取的，如维基百科、新闻报道、社交媒体、博客、书籍、论文等等。通常来说，这些数据都会经过一定的预处理，例如分词、去除停用词、标点符号等等，以便让机器学习算法更好地处理这些数据。&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
在实践中，训练数据的组成形式可以因应用而异。例如，对于一些需要特定领域知识的任务，如医疗、法律、金融等，训练数据可能会更加注重这些领域的专业术语和语言规则。对于一些通用领域的任务，如聊天机器人、翻译等，训练数据则可能更加注重日常用语和口语表达方式。&lt;br /&gt;
&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
[[文件:ChatGPT02.png|30px]]'''能不能列举一些文本样本的例子？'''&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[文件:ChatGPT00.png|30px]]当训练一个自然语言处理模型时，可以使用多种类型的文本数据，例如：&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
维基百科文章：维基百科是一个包含数百万文章的免费在线百科全书。这些文章涵盖了各种主题，包括历史、科学、艺术、文化等等。这些文章是非常有用的训练数据，因为它们通常具有高质量的语言表达和丰富的词汇。&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
新闻报道：新闻报道通常包含各种类型的文章，从政治新闻到娱乐新闻等等。这些文章通常使用规范的语言和结构，因此对于训练语言模型非常有用。&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
社交媒体：社交媒体平台，例如Twitter、Facebook和Instagram，提供了大量的用户生成内容，包括短消息、评论和帖子。这些内容通常包含口语表达和缩写，因此可以帮助训练语言模型更好地理解口语表达方式。&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
书籍：电子书是训练语言模型的另一个非常有用的数据来源。这些书籍通常具有高质量的语言表达和良好的文本结构，因此对于训练语言模型非常有用。&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
电影字幕：电影字幕包含了对话文本，这些对话文本可以被用来训练自然语言处理模型，例如语音识别、文本分类等。&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
总之，文本数据的来源非常广泛，可以是从各种媒体平台中获取的，例如网页、社交媒体、书籍、电影等等。&lt;br /&gt;
&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
[[文件:ChatGPT02.png|30px]]'''您说，文本数据的单位通常是句子或者段落。您能否举几个句子或者段落进行说明？'''&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[文件:ChatGPT00.png|30px]]当涉及到句子或段落时，以下是一些例子：&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
句子：The quick brown fox jumps over the lazy dog. 这是一个经典的英文句子，用于演示字母表的所有字母。&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
句子：春天到了，万物复苏。这是一个中文句子，用于描述春天的到来和大自然的变化。&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
段落：霍金先生是一位著名的物理学家和天体物理学家。他被认为是现代宇宙学的奠基人之一。他的许多作品，如《时间简史》和《宇宙在大爆炸之后的发展》等，被广泛认为是现代科学史上的重要贡献。&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
段落：在今天的会议上，我们讨论了公司的财务状况和未来计划。我们发现公司目前的利润率相对较低，需要采取措施来提高利润率。我们还讨论了未来的市场前景和扩张计划，以及如何更好地与客户沟通和营销。&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
这些例子展示了句子和段落的不同形式和用途，作为训练语言模型的基本单位，可以在许多自然语言处理任务中使用。&lt;br /&gt;
&amp;lt;br&amp;gt;&amp;lt;br&amp;gt;&lt;br /&gt;
[[文件:ChatGPT02.png|30px]]'''明白了。谢谢！'''&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
[[文件:ChatGPT00.png|30px]]不用谢，如果您有任何其他问题，请随时问我！&lt;/div&gt;</summary>
		<author><name>江南仁</name></author>	</entry>

	</feed>