QString乱谈(2) &QT 5 中文乱码问题

发布时间:2020-07-24 13:52:45 作者:WZM3558862
来源:网络 阅读:2352

 

QString乱谈(2)

随着:

C++中的中文问题 才算有了一个比较优雅的、跨平台的Workaround。

(本文讨论编译器范围:GCC4.6+, MSVC2010sp1+ 。本文属于QString系列,但暂不涉及QString)

C++ 中文问题

要在C++中正确使用中文,必须要了解下面两个概念:

源码字符集(the source character set)

源码文件是使用何种编码保存的

执行字符集(the execution character set)

可执行程序内保存的是何种编码(程序执行时内存中字符串编码)

C++98的问题: 既没有规定源码字符集,也没有规定执行字符集

这个... 如何理解?不妨看个例子

例子

这个要求高么?

//main.cppint main(){    char mystr[] = "老老实实的学问,来不得半点马虎";    return sizeof mystr;}

可以试着反问自己两个问题

对C++来说,这两个都不确定。

GCC

在GCC下,这两个都可以使用你自己喜好的编码(如果不指定,默认都是UTF8)

-finput-charset=charset-fexec-charset=charset

除了前两个选项外,还有一个:

-fwide-exec-charset=charset

wide? 不妨先猜一下它是干嘛的

MSVC

MSVC没有类似前面的选项。

源码字符集如何解决?

有BOM么,有则按BOM解释,无则使用本地Locale字符集(随系统设置而变)

执行字符集如何解决?

使用本地Locale字符集(随系统设置而变)

挺霸道哈(当然,源码中可以使用#pragma setlocale("..."),但功能很有限,比如Windows没有utf8的locale,所以...)。

另外,和GCC对应的wide-exec-charset呢?

宽执行字符集如何解决?

不妨先考虑一下

怎么办?

这才两个编译器,看起来就这么复杂了。而C++编译器的数目远大于2.

要想跨平台,必须确保这两个字符集都是“确定”的,而能胜任该任务的字符集,似乎理想的也只能是...

UTF-8方案

源码保存成UTF-8没有什么困难,但是,执行字符集需要是UTF-8。没那么简单

对GCC来说,这个问题很简单(默认的编码选项足够了):

对MSVC来说,这个问题异常复杂:

#pragma execution_character_set("utf-8")

要想跨GCC4.6+和MSVC2010sp1+,我们需要取它们的交集:也就是

//main.cpp#if _MSC_VER >= 1600#pragma execution_character_set("utf-8")#endifint main(){    char mystr[] = "老老实实的学问,来不得半点马虎";    return sizeof mystr;}

C++11

等到MSVC支持C++11的String Literals之时,我们就没必要用那个蹩脚的pragma了,直接

    char mystr[] = u8"老老实实的学问,来不得半点马虎";

即可(尽管现在在GCC下没问题,但要跨平台,估计要等到Visual C++ 12了)。

有个问题?

C++98中不是有个wchar_t么,它不是用来表示unicode字符的么?

Unicode 4.0标准的5.2节是如何说的:

The width of wchar_t is compiler-specific and can be as small as 8 bits. Consequently, programs that need to be portable across any C or C++ compilershould not use wchar_t for storing Unicode text. The wchar_t type is intended forstoring compiler-defined wide characters, which may be Unicode characters in some compilers.

在回头看看GCC的选项

-fwide-exec-charset=charset

尽管GCC为其提供的默认编码是UTF16或UTF32(取决于wchar_t的宽度),但该编码是可以随意设置的。

尽管这个东西不保证跨平台,也很不好玩, 但是,由于在windows下面wchar_t用来表示utf16字符,而且直接对应系统API接口,所以在类型char16_t普及之前,还是很重要的。

C++11执行字符集

前面提到的u8就是C++11为“执行字符集”所做的努力之一。

新明确规定了utf8、utf16和utf32这3种执行字符集。

char*

u8"中文"

char16_t*

u"中文"

char32_t*

U"中文"

可是C++11并没有规定源码字符集

const char* mystr=u8"中文";

C++标准对编译器说,我不管这个文件的具体编码是什么,但你必须给我生成对应utf8编码的字节流。

编译器似乎有点傻了吧?不知道源文件的编码,我如何转换

于是:

MSVC说:源码文件必须有BOM,不然我就认为你是本地locale的编码

GCC说:我认为你就是utf8编码,除非通过命令行通知我其他编码

在C++11标准下,对源码编码 简单的处理办法还是,使用带BOM的UTF8保存。

第二篇

今天,随着Change QString's default codec to be UTF-8 进入Qt5的master分支,我们总算可以重新审视一下Qt的中文支持问题。

20120516更新:建议阅读QtCore模块维护者Thiago Macieira 的文章 Source code must be UTF-8 and QString wants it 

没有了setCodecXXX的Qt5

QString s1 = "汉语";QString s2("漢語");QString s3 = tr("中文")QString s4 = QStringLiteral("中文");//只要字符串不需要翻译,请关注这个QString s5 = QString::fromWCharArray(L"中文");QString s6 = u8"中文";//C++11QString s7 = tr(u8"中文")...

所有这些在Qt5默认都会正常工作,唯一要求就是:确保你的C++的执行字符集(the execution character set)是UTF-8

各种写法PK?

简单不一定好

最简单直接的用法,当属:

QString s1 = "汉语";QString s2("漢語");QString s6 = u8"中文";//C++11...

这有什么问题呢?

被误用最多的

在Qt4中,QObject::tr()是被滥用(误用)的函数之一:

QString s3 = tr("中文")...

原因:

它的用途是用来进行翻译(I18N和L10N)的,如果你没有这方面的需求,真的没必要用它。(在Qt4中,我只注意到有2个大陆网友和1个日本网友有需求并真正进行过这方面的尝试,那么其他应该算误用吧?)

让人困惑的wchar_t

刚开始接触Qt和QString时,曾多次想过,为什么不用wchar_t,为什么,...

QString s5 = QString::fromWCharArray(L"中文");

这个东西在Windows下真的很有用:首先它是Windows系统API所用字符串,其次它和QString内部表示相同。但是由于MSVC处于种种考虑,鼓励大家使用TEXT/_T,反倒使大家对它比较陌生。

但是从C++标准来说,wchar_t毕竟不是char16_t,所以跨平台性不好。在linux下,这行代码需要utf32到utf16的转换。

QStringLiteral

这是一个宏,一个蛮复杂的宏:

QString s4 = QStringLiteral("中文");

之前?

在介绍这个宏之前,我们先看看下面写法有什么劣势:

QString s1 = "汉语";QString s2("漢語");QString s3 = tr("中文")QString s6 = u8"中文";//C++11...

首先,2个汉字的字符串以UTF-8编码的形式被编译器放到了常量区。(至少占7个字节吧?)

然后,程序运行时,构造QString实例,需要在堆上申请空间,存放utf16格式的相应字符串。

有没有存在浪费?

方案

QString 内部是UTF16,如果C++编译器在编译期直接提供了UTF16的字符串,那么我们在QString内部直接保存也就够了。这样

现实

目前,我们还没有可靠的方式在C++使用UTF16的执行字符集(the execution character set)。

这两点,导致了QStringLiteral的复杂性

实现

源码见 qtbase/src/corelib/tools/qstring.h

(代码中使用宏、模板、lambda表达式,还是相当复杂的,此处只摘片段)

#define QT_UNICODE_LITERAL_II(str) u"" strtypedef char16_t qunicodechar;...

#if defined(Q_CC_MSVC)#    define QT_UNICODE_LITERAL_II(str) L##str#else#    define QT_UNICODE_LITERAL_II(str) L"" str#endiftypedef wchar_t qunicodechar;...

# define QStringLiteral(str) QString::fromUtf8(str, sizeof(str) - 1)


推荐阅读:
  1. QString类型转换
  2. [置顶]       jQuery乱谈(七)

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

qt strin st

上一篇:使用python命令行参数的方法

下一篇:redux-form V.7.4.2学习笔记--Field解析(完)

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》