 <?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-CN">
		<id>http://wiki.sseuu.com/index.php?action=history&amp;feed=atom&amp;title=%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%88%A9%E5%99%A8jieba%E3%80%81jiagu%E4%BD%BF%E7%94%A8%E5%BF%83%E5%BE%97</id>
		<title>中文分词利器jieba、jiagu使用心得 - 版本历史</title>
		<link rel="self" type="application/atom+xml" href="http://wiki.sseuu.com/index.php?action=history&amp;feed=atom&amp;title=%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%88%A9%E5%99%A8jieba%E3%80%81jiagu%E4%BD%BF%E7%94%A8%E5%BF%83%E5%BE%97"/>
		<link rel="alternate" type="text/html" href="http://wiki.sseuu.com/index.php?title=%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%88%A9%E5%99%A8jieba%E3%80%81jiagu%E4%BD%BF%E7%94%A8%E5%BF%83%E5%BE%97&amp;action=history"/>
		<updated>2026-05-07T04:23:08Z</updated>
		<subtitle>本wiki的该页面的版本历史</subtitle>
		<generator>MediaWiki 1.30.0</generator>

	<entry>
		<id>http://wiki.sseuu.com/index.php?title=%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%88%A9%E5%99%A8jieba%E3%80%81jiagu%E4%BD%BF%E7%94%A8%E5%BF%83%E5%BE%97&amp;diff=20448&amp;oldid=prev</id>
		<title>江南仁：创建页面，内容为“{{4}} 1、jieba项目地址：https://github.com/fxsjy/jieba  2、jiagu项目地址：https://github.com/ownthink/Jiagu  使用心得：  1、利用jieba进行关键...”</title>
		<link rel="alternate" type="text/html" href="http://wiki.sseuu.com/index.php?title=%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%88%A9%E5%99%A8jieba%E3%80%81jiagu%E4%BD%BF%E7%94%A8%E5%BF%83%E5%BE%97&amp;diff=20448&amp;oldid=prev"/>
				<updated>2019-11-16T23:23:39Z</updated>
		
		<summary type="html">&lt;p&gt;创建页面，内容为“{{4}} 1、jieba项目地址：https://github.com/fxsjy/jieba  2、jiagu项目地址：https://github.com/ownthink/Jiagu  使用心得：  1、利用jieba进行关键...”&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新页面&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{4}}&lt;br /&gt;
1、jieba项目地址：https://github.com/fxsjy/jieba&lt;br /&gt;
&lt;br /&gt;
2、jiagu项目地址：https://github.com/ownthink/Jiagu&lt;br /&gt;
&lt;br /&gt;
使用心得：&lt;br /&gt;
&lt;br /&gt;
1、利用jieba进行关键词提取，提取之前可以通过&lt;br /&gt;
&lt;br /&gt;
        1、词性标注进行过滤，主要使用参数allowPOS ，&lt;br /&gt;
&lt;br /&gt;
        2、加载停用词表进行词汇的过滤&lt;br /&gt;
&lt;br /&gt;
2、关键词提取函数&lt;br /&gt;
&lt;br /&gt;
jieba.analyse.extract_tags（）基于tf-idf&lt;br /&gt;
&lt;br /&gt;
jieba.analyse.textrank（）基于textrank&lt;br /&gt;
&lt;br /&gt;
函数参数有一下几个：&lt;br /&gt;
&lt;br /&gt;
sentence 为待提取的文本&lt;br /&gt;
&lt;br /&gt;
topK 为返回的关键词数量，默认值为20&lt;br /&gt;
&lt;br /&gt;
withWeight 为是否一并返回关键词权重值，默认值为False&lt;br /&gt;
&lt;br /&gt;
allowPOS 仅包括指定词性的词，默认值为空，即不筛选&lt;br /&gt;
&lt;br /&gt;
3、关键词提取算法详细原理，以及jieba源代码实习该算法的原理，推荐看这篇文章https://blog.csdn.net/suibianshen2012/article/details/68927060&lt;br /&gt;
&lt;br /&gt;
4、利用jiagu进行关键词提取：jiagu使用的是深度学习，需要训练模型，所以好像很慢，就不推荐了。自己可以参考官方文档，跑跑，测试下。&lt;br /&gt;
&lt;br /&gt;
5、jieba采用的词性表，可以找这个链接：https://blog.csdn.net/csdn_yxy/article/details/84974726 具体参数如图所示：&lt;br /&gt;
&lt;br /&gt;
[[文件:jieba采用的词性表.jpg]]&lt;br /&gt;
&lt;br /&gt;
作者：你在干嘛HJ&lt;br /&gt;
&lt;br /&gt;
链接：https://www.jianshu.com/p/d3183e08384e&lt;br /&gt;
&lt;br /&gt;
来源：简书&lt;/div&gt;</summary>
		<author><name>江南仁</name></author>	</entry>

	</feed>