在Java中,要计算UTF字符串的长度,不能直接使用length()
方法,因为该方法返回的是字符数,而不是字节数。对于UTF-8编码的字符串,一个字符可能占用1到4个字节。为了准确计算UTF字符串的字节长度,可以使用以下方法:
public static int utf8Length(String str) {
int length = 0;
for (int i = 0; i < str.length(); i++) {
char ch = str.charAt(i);
if ((ch & 0xC0) != 0x80) { // 判断是否为ASCII字符
length++;
} else if ((ch & 0xE0) != 0xC0) { // 判断是否为3字节字符
length += 2;
} else if ((ch & 0xF0) != 0xE0) { // 判断是否为4字节字符
length += 3;
} else { // 判断是否为5字节字符(实际上UTF-8中不存在5字节字符)
length += 4;
}
}
return length;
}
这个方法会遍历字符串中的每个字符,检查其前几位以确定它是一个单字节字符、双字节字符、三字节字符还是四字节字符。然后,根据字符的字节数累加长度计数器。最后,返回累加后的长度。