python3中提取汉字的方法是什么

发布时间：2020-08-07 14:11:27 作者：小新
来源：亿速云阅读：422

这篇文章主要介绍了python3中提取汉字的方法是什么，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获。下面让小编带着大家一起了解一下。

采用正则表达式的方法对字符串进行处理。

str1 = "｛我%$是，《速$@.度\发》中 /国、人"

（1）提取汉字

汉字的范围为”\u4e00-\u9fa5“，这个是用Unicode表示的。

import re
res1 = ''.join(re.findall('[\u4e00-\u9fa5]',str1))
print(res1)

输出为：

‘我是速度发中国人’

（2）去除所有符号。采用清理数据，仅保留字母、数字、中文的方法。

import re
res1 = re.sub("[^a-zA-Z0-9\u4e00-\u9fa5]", '', str1) 
print(res1)

输出为：

‘我是速度发中国人’

感谢你能够认真阅读完这篇文章，希望小编分享python3中提取汉字的方法是什么内容对大家有帮助，同时也希望大家多多支持亿速云，关注亿速云行业资讯频道，遇到问题就找亿速云，详细的解决方法等着你来学习!

相关阅读