jieba怎么对文本进行分词

发布时间:2022-01-05 16:37:24 作者:iii
来源:亿速云 阅读:376

这篇文章主要介绍“jieba怎么对文本进行分词”,在日常操作中,相信很多人在jieba怎么对文本进行分词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”jieba怎么对文本进行分词”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

jieba库是一个强大的中文分词库,对中文进行分词。(pip install jieba)

jieba有三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点:

    1、精确模式:把句子最精确地分开,适合做文本分析。

    2、全模式:把句子中所有的可以成词的词语都切开, 速度快,但有歧义。

    3、搜索引擎模式:在精确模式的基础上,对长词再次进行切分,提高召回率,

    适合用于搜索引擎的分词

代码如下:

import jieba
words = '数据科学公众号团队致力于分享关于数据科学的编程语言以及算法等知识'
# 精确模式print("/".join(jieba.lcut(words)))
# 全模式print("/".join(jieba.lcut(words,cut_all=True)))
# 搜索引擎模式print("/".join(jieba.lcut_for_search(words, )))

结果如下:

# 精确模式 语文阅读的文本分词

数据/科学/公众/号/团队/致力于/分享/关于/数据/科学/的/编程语言/以及/算法/等/知识

# 全模式 列出所有可以成词的文本

数据/科学/公众/号/团队/致力/致力于/分享/关于/数据/科学/的/编程/编程语言/语言/以及/算法/等/知识

# 搜索引擎模式 加强对长词的切分,提高搜索的召回率

数据/科学/公众/号/团队/致力/致力于/分享/关于/数据/科学/的/编程/语言/编程语言/以及/算法/等/知识

到此,关于“jieba怎么对文本进行分词”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!

推荐阅读:
  1. 文本挖掘分词mapreduce化
  2. Django实现whoosh搜索引擎使用jieba分词

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

jieba

上一篇:jieba怎么制作词云

下一篇:Nginx如何配置TP5.1及所遇问题

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》