python pkuseg工具怎么使用

发布时间:2021-12-18 13:51:48 作者:iii
来源:亿速云 阅读:243

本篇内容介绍了“python pkuseg工具怎么使用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

细分领域的中文分词工具,简单易用,跟现有开源分词工具相比提高了分词的准确率。

Linux作为测试环境,在新闻数据(MSRA)、混合型文本(CTB8)、网络文本(WEIBO)数据上对不同工具包进行了准确率测试。 

细领域训练及测试结果

以下是在不同数据集上的对比结果:

python pkuseg工具怎么使用 

跨领域测试结果

我们选用了混合领域的CTB8语料的训练集进行训练,同时在其它领域进行测试,以模拟模型在“黑盒数据”上的分词效果。选择CTB8语料的原因是,CTB8属于混合语料,理想情况下的效果会更好;而且在测试中我们发现在CTB8上训练的模型,所有工具包跨领域测试都可以获得更高的平均效果。以下是跨领域测试的结果:

python pkuseg工具怎么使用

pkuseg具有如下几个特点:

使用方式

代码示例1:使用默认模型及默认词典分词

import pkuseg

seg = pkuseg.pkuseg()                        # 以默认配置加载模型
text = seg.cut('我爱北京天安门')                # 进行分词
print(text)

结果

    loading model
    finish
    ['我', '爱', '北京', '天安门']

“python pkuseg工具怎么使用”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!

推荐阅读:
  1. python如何使用迭代工具
  2. Python中文分词库jieba,pkusegwg性能准确度比较

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python pkuseg

上一篇:怎么在Colab上实现近200万图片的精准检索匹配

下一篇:如何进行springboot配置templates直接访问的实现

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》