php字符串如何只提取中文字符

发布时间：2022-09-23 09:32:13 作者：iii
来源：亿速云阅读：248

PHP字符串如何只提取中文字符

在PHP开发中，处理字符串是一个常见的任务。有时候，我们需要从字符串中提取中文字符，而过滤掉其他字符（如英文字母、数字、符号等）。本文将详细介绍如何在PHP中实现这一功能，并提供多种方法和示例代码。

1. 使用正则表达式提取中文字符

正则表达式是一种强大的工具，可以用来匹配和提取特定模式的字符串。在PHP中，我们可以使用正则表达式来匹配中文字符。

1.1 正则表达式匹配中文字符

中文字符的Unicode范围是\x{4e00}-\x{9fa5}，我们可以利用这个范围来匹配中文字符。

$str = "Hello 你好 123 世界！";
preg_match_all('/[\x{4e00}-\x{9fa5}]/u', $str, $matches);
$chineseChars = implode('', $matches[0]);
echo $chineseChars; // 输出：你好世界

1.2 解释

preg_match_all：用于执行全局正则表达式匹配。
/[\x{4e00}-\x{9fa5}]/u：正则表达式模式，\x{4e00}-\x{9fa5}表示中文字符的Unicode范围，u修饰符表示处理UTF-8编码的字符串。
$matches：存储匹配结果的数组。
implode('', $matches[0])：将匹配到的中文字符数组连接成一个字符串。

1.3 注意事项

正则表达式中的u修饰符是必须的，否则无法正确匹配UTF-8编码的中文字符。
如果字符串中包含其他Unicode字符（如日文、韩文等），可能需要调整正则表达式的范围。

2. 使用`mb_substr`和`mb_strlen`函数

PHP的mbstring扩展提供了多字节字符串处理函数，可以用来处理中文字符。

2.1 提取中文字符

$str = "Hello 你好 123 世界！";
$chineseChars = '';
for ($i = 0; $i < mb_strlen($str, 'UTF-8'); $i++) {
    $char = mb_substr($str, $i, 1, 'UTF-8');
    if (preg_match('/[\x{4e00}-\x{9fa5}]/u', $char)) {
        $chineseChars .= $char;
    }
}
echo $chineseChars; // 输出：你好世界

2.2 解释

mb_strlen($str, 'UTF-8')：获取字符串的长度，以UTF-8编码计算。
mb_substr($str, $i, 1, 'UTF-8')：从字符串中提取一个字符，以UTF-8编码处理。
preg_match('/[\x{4e00}-\x{9fa5}]/u', $char)：判断字符是否为中文字符。

2.3 注意事项

这种方法适用于处理较短的字符串，对于较长的字符串，性能可能不如正则表达式。
需要确保mbstring扩展已启用。

3. 使用`preg_replace`函数过滤非中文字符

preg_replace函数可以用来替换字符串中符合特定模式的部分。我们可以利用它来过滤掉非中文字符。

3.1 过滤非中文字符

$str = "Hello 你好 123 世界！";
$chineseChars = preg_replace('/[^\x{4e00}-\x{9fa5}]/u', '', $str);
echo $chineseChars; // 输出：你好世界

3.2 解释

preg_replace('/[^\x{4e00}-\x{9fa5}]/u', '', $str)：将字符串中所有非中文字符替换为空字符串。
[^\x{4e00}-\x{9fa5}]：表示匹配所有不在中文字符范围内的字符。

3.3 注意事项

这种方法简单高效，适用于大多数场景。
如果需要保留其他Unicode字符（如日文、韩文等），需要调整正则表达式。

4. 使用`iconv`函数转换编码

iconv函数可以用来转换字符串的编码。虽然它主要用于编码转换，但也可以用来过滤非中文字符。

4.1 过滤非中文字符

$str = "Hello 你好 123 世界！";
$chineseChars = iconv('UTF-8', 'GBK//IGNORE', $str);
$chineseChars = iconv('GBK', 'UTF-8', $chineseChars);
echo $chineseChars; // 输出：你好世界

4.2 解释

iconv('UTF-8', 'GBK//IGNORE', $str)：将字符串从UTF-8编码转换为GBK编码，忽略无法转换的字符。
iconv('GBK', 'UTF-8', $chineseChars)：将字符串从GBK编码转换回UTF-8编码。

4.3 注意事项

这种方法依赖于编码转换，可能会丢失一些字符。
适用于处理特定编码的字符串，但不推荐作为通用解决方案。

5. 使用`mb_ereg_replace`函数

mb_ereg_replace是mbstring扩展提供的函数，用于多字节字符串的正则表达式替换。

5.1 过滤非中文字符

$str = "Hello 你好 123 世界！";
$chineseChars = mb_ereg_replace('[^\x{4e00}-\x{9fa5}]', '', $str);
echo $chineseChars; // 输出：你好世界

5.2 解释

mb_ereg_replace('[^\x{4e00}-\x{9fa5}]', '', $str)：将字符串中所有非中文字符替换为空字符串。
[^\x{4e00}-\x{9fa5}]：表示匹配所有不在中文字符范围内的字符。

5.3 注意事项

需要确保mbstring扩展已启用。
这种方法与preg_replace类似，但适用于多字节字符串。

6. 使用自定义函数提取中文字符

如果需要更灵活的处理方式，可以编写自定义函数来提取中文字符。

6.1 自定义函数

function extractChineseChars($str) {
    $chineseChars = '';
    for ($i = 0; $i < mb_strlen($str, 'UTF-8'); $i++) {
        $char = mb_substr($str, $i, 1, 'UTF-8');
        if (preg_match('/[\x{4e00}-\x{9fa5}]/u', $char)) {
            $chineseChars .= $char;
        }
    }
    return $chineseChars;
}

$str = "Hello 你好 123 世界！";
echo extractChineseChars($str); // 输出：你好世界

6.2 解释

extractChineseChars：自定义函数，用于提取字符串中的中文字符。
内部逻辑与之前的方法类似，遍历字符串并判断每个字符是否为中文字符。

6.3 注意事项

这种方法适用于需要自定义处理逻辑的场景。
可以根据需求扩展函数功能，如处理其他Unicode字符。

7. 性能比较

不同的方法在处理字符串时的性能有所差异。以下是对几种方法的简单性能比较：

正则表达式：适用于大多数场景，性能较好。
mb_substr和mb_strlen：适用于较短的字符串，性能较差。
preg_replace：简单高效，适用于大多数场景。
iconv：依赖于编码转换，性能一般。
mb_ereg_replace：与preg_replace类似，适用于多字节字符串。
自定义函数：灵活性高，但性能可能不如内置函数。

8. 总结

在PHP中提取中文字符有多种方法，每种方法都有其优缺点。根据实际需求选择合适的方法可以提高代码的效率和可维护性。以下是几种常见场景的推荐方法：

简单场景：使用preg_replace或mb_ereg_replace。
复杂场景：编写自定义函数，灵活处理各种需求。
性能敏感场景：使用正则表达式或preg_replace。

希望本文能帮助你更好地理解和处理PHP中的中文字符提取问题。如果你有更多问题或需要进一步的帮助，请随时联系我。