python分词工具有哪些及怎么用

发布时间：2022-05-10 09:26:06 作者：iii
来源：亿速云阅读：269

这篇文章主要介绍“python分词工具有哪些及怎么用”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“python分词工具有哪些及怎么用”文章能帮助大家解决问题。

1. jieba 分词

“结巴”分词，GitHub最受欢迎的分词工具，立志做最好的 Python 中文分词组件，支持多种分词模式，支持自定义词典。

github star：26k

代码示例

import jieba

strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]

for str in strs:
    seg_list = jieba.cut(str,use_paddle=True) # 使用paddle模式
    print("Paddle Mode: " + '/'.join(list(seg_list)))

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print("新词识别：", ",".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print("搜索引擎模式:", ".join(seg_list))

输出：

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】： 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

2. pkuseg 分词

pkuseg 是北大语言计算与机器学习研究组开源的一款分词工具，它的特点是支持多领域分词，目前支持新闻领域，网络领域，医药领域，旅游领域，以及混合领域的分词预训练模型，用户可以自由地选择不同的模型。相比通用分词工具，它的分词准确率更高。

github star：5.4k

代码示例


import pkuseg

seg = pkuseg.pkuseg()           # 以默认配置加载模型
text = seg.cut('python是一门很棒的语言')  # 进行分词
print(text)

输出

['python', '是', '一', '门', '很', '棒', '的', '语言']

3. FoolNLTK 分词

基于BiLSTM模型训练而成，据说可能是最准的开源中文分词，同样支持用户自定义词典。

GitHub star: 1.6k

代码示例

import fool

text = "一个傻子在北京"
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']

4. THULAC

THULAC由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包。具有词性标注功能，能分析出某个词是名词还是动词或者形容词。

github star：1.5k

 代码示例1
  代码示例1
 import thulac  

 thu1 = thulac.thulac()  #默认模式
 text = thu1.cut("我爱北京天安门", text=True)  #进行一句话分词
 print(text) # 我_r 爱_v 北京_ns 天安门_ns
 代码示例2
 thu1 = thulac.thulac(seg_only=True)  #只进行分词，不进行词性标注
 thu1.cut_f("input.txt", "output.txt")  #对input.txt文件内容进行分词，输出到output.txt

关于“python分词工具有哪些及怎么用”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识，可以关注亿速云行业资讯频道，小编每天都会为大家更新不同的知识点。

python分词工具有哪些及怎么用

1. jieba 分词

2. pkuseg 分词

3. FoolNLTK 分词

4. THULAC

相关阅读