怎么防止java程序出现乱码

发布时间：2020-06-24 09:10:55 作者：Leah
来源：亿速云阅读：174

怎么防止java程序出现乱码？可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

java在字符串中统一用Unicode表示。

对于任意一个字符串：String string = “测试字符串”;

如果源文件是GBK编码，操作系统默认环境编码也为GBK，那么编译的时候，JVM将按照GBK编码将字节数组解析为字符，然后将字符转换为Unicode格式的字节数组，作为内部存储(字节数组→字符→Unicode字节数组)。

当打印这个字符串时，JVM根据操作系统本地的语言环境，将Unicode转换为GBK，然后操作系统将GBK格式的内容显示出来。

当源码文件是UTF-8, 我们需要通知编译器源码的格式，javac -encoding utf-8 … , 编译时，JVM按照utf-8 解析成字符，然后转换为unicode格式的字节数组，那么不论源码文件是什么格式，同样的字符串，最后得到的unicode字节数组是完全一致的，显示的时候，也是转成GBK来显示（跟OS环境有关）

乱码是如何产生的？

本质上都是由于字符串原本的编码格式与读取时解析用的编码格式不一致导致的。

造成乱码的原因就是因为使用了错误的字符编码去解码字节流，因此当我们在思考任何跟文本显示有关的问题时，请时刻保持清醒：当前使用的字符编码是什么，只有这样，我们才能正确分析和处理乱码问题。

java代码中的乱码问题如何解决呢？

例如：String s = “测试字符串”;

System.out.println( new String(s.getBytes(),"UTF-8")); 
//错误，因为getBytes()默认使用GBK编码， 而解析时使用UTF-8编码，肯定出错。

其中getBytes()是将Unicode转换为操作系统默认格式的字节数组，即“测试字符串”的GBK格式，new String (bytes, Charset) 中的charset 是指定读取byte的方式，这里指定为UTF-8，即把bytes的内容当做UTF-8来读取。

如下两种方式得到的结果都是正确的，因为它们的源内容编码和解析用的编码是一致的。

System.out.println( new String(s.getBytes(),"GBK"));
System.out.println( new String(s.getBytes("UTF-8"),"UTF-8"));

如何正确的将GBK转UTF-8 ? （实际上是unicode转UTF-8)

//利用getBytes将unicode字符串转成UTF-8格式的字节数组，然后用utf-8 对这个字节数组解码成新的字符串
new String( s.getBytes("utf-8") , "utf-8");

UTF-8 转GBK原理也是一样

new String( s.getBytes("GBK") , "GBK");

其实核心工作都由getBytes(charset)做了。getBytes的JDK描述：Encoding this String into a sequence of bytes using the named charset,storing the result into a new byte array.

OutputStreamWriter w1 = new OutputStreamWriter(new FileOutputStream("D:\\file1.txt"),"UTF-8");
InputStreamReader( stream, charset)

看完上述内容，你们对防止java程序出现乱码的方法有进一步的了解吗？如果还想了解更多相关内容，欢迎关注亿速云行业资讯频道，感谢各位的阅读。

怎么防止java程序出现乱码

相关阅读