如何解决在Python中中英文混杂出错的问题

发布时间:2021-07-12 16:06:24 作者:chen
来源:亿速云 阅读:495

这篇文章主要介绍“如何解决在Python中中英文混杂出错的问题”,在日常操作中,相信很多人在如何解决在Python中中英文混杂出错的问题问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何解决在Python中中英文混杂出错的问题”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

前两天用Python写了个小脚本,其中有个需求是从一个文本文件A中读取数据,然后处理一下写进一个新的文本文件B中。不过A文件中既有英文也有中文。
写出处理这个需求的代码并不复杂,随手就能写下类似的代码:

1def write_a_line(line, fp):
2    fp.write(line)

不过这段程序一旦碰到有汉字的字符串时,可能就会遇到下面的问题:

Traceback (most recent call last):File "<stdin>", line 1, in <module>UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1:ordinal not in range(128)

恩,这种情况对于我们平时使用C#或者Java的程序员来说确实比较头大。从这个错误提示来看,Python在写文件时,对line变量进行了编码操作,而且是针对line对象进行ASCII码的编码。

我们都知道Python是支持unicode的,而且还有针对unicode的类型“unicode”。要想让字符串称为unicode字符串,可以在字符串的引号前面加入一个小写字母“u”。翻阅Python的文档,我们可以发下write方法接收的是str对象。不过Python并不像C#,它不用声明变量的类型。所以我们应该先看看line到底是个什么对象。于是为了解决这个问题,我把上面的代码加了一行:

1def write_a_line(line, fp):
2    print line.__class__.__name__
3    fp.write(line)

代码运行之后,我发现当line中有中文的时候,我们的line变量的类型是unicode。从网上搜了一下与unicode与写文件相关的帖子,可以得到一个信息,对这unicode对象调encode方法进行编码就可以正常写文件了。于是代码又编程了下面的样子:

1def write_a_line(line, fp):
2    if line.__class__.__name__ == “unicode”:
3        line = line.encode(“GB2312”)
4    fp.write(line)

这里要注意的问题是不能一棍子打死,line可能会是unicode对象也可能是str对象,不过我们只对unicode对象进行编码。这下问题总算是解决了。

到此,关于“如何解决在Python中中英文混杂出错的问题”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!

推荐阅读:
  1. 解决vCSA加入域出错的问题:
  2. 解决Python import docx出错DLL load failed的问题

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python

上一篇:Vista下如何将文件夹固定到开始菜单上

下一篇:ADO.NET数据库连接、SQL操作的方法

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》