Python之正则表达式常用语法实例分析

发布时间：2022-08-04 09:52:45 作者：iii
来源：亿速云阅读：214

Python之正则表达式常用语法实例分析

正则表达式（Regular Expression，简称 regex 或 regexp）是一种强大的文本处理工具，广泛应用于字符串的搜索、匹配、替换等操作。Python 通过 re 模块提供了对正则表达式的支持。本文将详细介绍 Python 中正则表达式的常用语法，并通过实例分析帮助读者更好地理解和掌握正则表达式的使用。

正则表达式简介

正则表达式是一种用于描述字符串模式的语法规则。通过正则表达式，我们可以快速地在文本中查找、匹配、替换符合特定模式的字符串。正则表达式广泛应用于文本处理、数据清洗、日志分析等领域。

Python 中的 `re` 模块

Python 通过 re 模块提供了对正则表达式的支持。re 模块包含了正则表达式的编译、匹配、搜索、替换等功能。以下是 re 模块中常用的函数：

re.match(pattern, string)：从字符串的起始位置匹配正则表达式。
re.search(pattern, string)：在字符串中搜索匹配正则表达式的第一个位置。
re.findall(pattern, string)：返回字符串中所有匹配正则表达式的子串。
re.sub(pattern, repl, string)：将字符串中匹配正则表达式的部分替换为指定字符串。
re.compile(pattern)：将正则表达式编译为一个正则表达式对象，以便重复使用。

正则表达式的基本语法

字符匹配

正则表达式中的普通字符（如字母、数字、空格等）可以直接匹配字符串中的相应字符。例如，正则表达式 hello 可以匹配字符串 "hello world" 中的 "hello"。

import re

pattern = r"hello"
text = "hello world"
match = re.search(pattern, text)
if match:
    print("匹配成功:", match.group())
else:
    print("匹配失败")

输出：

匹配成功: hello

字符集

字符集用于匹配一组字符中的任意一个。字符集用方括号 [] 表示。例如，正则表达式 [aeiou] 可以匹配任意一个元音字母。

import re

pattern = r"[aeiou]"
text = "hello world"
matches = re.findall(pattern, text)
print("匹配的元音字母:", matches)

输出：

匹配的元音字母: ['e', 'o', 'o']

重复匹配

正则表达式中的重复匹配用于指定某个字符或字符集的重复次数。常用的重复匹配符号包括：

*：匹配前面的字符 0 次或多次。
+：匹配前面的字符 1 次或多次。
?：匹配前面的字符 0 次或 1 次。
{n}：匹配前面的字符恰好 n 次。
{n,}：匹配前面的字符至少 n 次。
{n,m}：匹配前面的字符至少 n 次，至多 m 次。

import re

pattern = r"a{2,4}"
text = "aa, aaa, aaaa, aaaaa"
matches = re.findall(pattern, text)
print("匹配的a字符:", matches)

输出：

匹配的a字符: ['aa', 'aaa', 'aaaa', 'aaaa']

边界匹配

边界匹配用于指定匹配的位置，常用的边界匹配符号包括：

^：匹配字符串的开头。
$：匹配字符串的结尾。
\b：匹配单词的边界。
\B：匹配非单词的边界。

import re

pattern = r"\bhello\b"
text = "hello world, hello there, helloo"
matches = re.findall(pattern, text)
print("匹配的hello单词:", matches)

输出：

匹配的hello单词: ['hello', 'hello']

分组与捕获

分组用于将多个字符整体进行匹配，分组用圆括号 () 表示。分组还可以用于捕获匹配的子串，以便后续使用。

import re

pattern = r"(hello) (world)"
text = "hello world"
match = re.search(pattern, text)
if match:
    print("匹配的完整字符串:", match.group())
    print("第一个分组:", match.group(1))
    print("第二个分组:", match.group(2))

输出：

匹配的完整字符串: hello world
第一个分组: hello
第二个分组: world

贪婪与非贪婪匹配

正则表达式默认是贪婪匹配，即尽可能多地匹配字符。非贪婪匹配则尽可能少地匹配字符，非贪婪匹配在重复匹配符号后加上 ?。

import re

pattern_greedy = r"a.*b"
pattern_non_greedy = r"a.*?b"
text = "aabab"
match_greedy = re.search(pattern_greedy, text)
match_non_greedy = re.search(pattern_non_greedy, text)
print("贪婪匹配:", match_greedy.group())
print("非贪婪匹配:", match_non_greedy.group())

输出：

贪婪匹配: aabab
非贪婪匹配: aab

特殊字符

正则表达式中有一些特殊字符，用于表示特定的字符或字符集。常用的特殊字符包括：

.：匹配任意单个字符（除换行符外）。
\d：匹配任意数字字符，等价于 [0-9]。
\D：匹配任意非数字字符，等价于 [^0-9]。
\w：匹配任意字母、数字或下划线字符，等价于 [a-zA-Z0-9_]。
\W：匹配任意非字母、数字或下划线字符，等价于 [^a-zA-Z0-9_]。
\s：匹配任意空白字符（包括空格、制表符、换行符等）。
\S：匹配任意非空白字符。

import re

pattern = r"\d{3}-\d{2}-\d{4}"
text = "我的社保号是123-45-6789"
match = re.search(pattern, text)
if match:
    print("匹配的社保号:", match.group())

输出：

匹配的社保号: 123-45-6789

常用正则表达式实例分析

匹配邮箱地址

邮箱地址的格式通常为 username@domain.com。我们可以使用以下正则表达式来匹配邮箱地址：

import re

pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"
text = "我的邮箱是user@example.com，请发邮件给我。"
match = re.search(pattern, text)
if match:
    print("匹配的邮箱地址:", match.group())

输出：

匹配的邮箱地址: user@example.com

匹配URL

URL 的格式通常为 http://www.example.com/path。我们可以使用以下正则表达式来匹配 URL：

import re

pattern = r"https?://(?:www\.)?\S+"
text = "请访问我们的网站https://www.example.com了解更多信息。"
match = re.search(pattern, text)
if match:
    print("匹配的URL:", match.group())

输出：

匹配的URL: https://www.example.com

匹配IP地址

IP 地址的格式通常为 192.168.1.1。我们可以使用以下正则表达式来匹配 IP 地址：

import re

pattern = r"\b(?:\d{1,3}\.){3}\d{1,3}\b"
text = "服务器的IP地址是192.168.1.1。"
match = re.search(pattern, text)
if match:
    print("匹配的IP地址:", match.group())

输出：

匹配的IP地址: 192.168.1.1

匹配日期

日期的格式通常为 YYYY-MM-DD。我们可以使用以下正则表达式来匹配日期：

import re

pattern = r"\d{4}-\d{2}-\d{2}"
text = "今天的日期是2023-10-05。"
match = re.search(pattern, text)
if match:
    print("匹配的日期:", match.group())

输出：

匹配的日期: 2023-10-05

匹配HTML标签

HTML 标签的格式通常为 <tag>content</tag>。我们可以使用以下正则表达式来匹配 HTML 标签：

import re

pattern = r"<(\w+)[^>]*>(.*?)</\1>"
text = "<h1>标题</h1><p>段落内容</p>"
matches = re.findall(pattern, text)
for tag, content in matches:
    print(f"匹配的HTML标签: <{tag}>{content}</{tag}>")

输出：

匹配的HTML标签: <h1>标题</h1>
匹配的HTML标签: <p>段落内容</p>

匹配手机号码

手机号码的格式通常为 13800138000。我们可以使用以下正则表达式来匹配手机号码：

import re

pattern = r"1[3-9]\d{9}"
text = "我的手机号码是13800138000，请记下。"
match = re.search(pattern, text)
if match:
    print("匹配的手机号码:", match.group())

输出：

匹配的手机号码: 13800138000

正则表达式的高级用法

条件匹配

条件匹配用于在正则表达式中根据条件选择不同的匹配模式。条件匹配的语法为 (?(condition)true-pattern|false-pattern)。

import re

pattern = r"(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$)"
text = "<user@example.com> user@example.com"
matches = re.findall(pattern, text)
for match in matches:
    print("匹配的邮箱地址:", match[1])

输出：

匹配的邮箱地址: user@example.com
匹配的邮箱地址: user@example.com

零宽断言

零宽断言用于在匹配时指定某些条件，但不消耗字符。常用的零宽断言包括：

(?=...)：正向肯定预查。
(?!...)：正向否定预查。
(?<=...)：反向肯定预查。
(?<!...)：反向否定预查。

import re

pattern = r"\b\w+(?=ing\b)"
text = "I am running and swimming."
matches = re.findall(pattern, text)
print("匹配的单词:", matches)

输出：

匹配的单词: ['runn', 'swimm']

命名分组

命名分组用于给分组命名，以便后续引用。命名分组的语法为 (?P<name>...)。

import re

pattern = r"(?P<year>\d{4})-(?P<month>\d{2})-(?P<day>\d{2})"
text = "今天的日期是2023-10-05。"
match = re.search(pattern, text)
if match:
    print("年份:", match.group("year"))
    print("月份:", match.group("month"))
    print("日期:", match.group("day"))

输出：

年份: 2023
月份: 10
日期: 05

正则表达式的性能优化

正则表达式的性能优化主要从以下几个方面入手：

避免回溯：尽量使用非贪婪匹配，避免不必要的回溯。
预编译正则表达式：对于需要重复使用的正则表达式，可以使用 re.compile 进行预编译。
使用字符集：尽量使用字符集代替多个 | 操作符。
避免复杂的嵌套分组：复杂的嵌套分组会增加匹配的复杂度，影响性能。

import re

pattern = re.compile(r"\d{3}-\d{2}-\d{4}")
text = "我的社保号是123-45-6789"
match = pattern.search(text)
if match:
    print("匹配的社保号:", match.group())

输出：

匹配的社保号: 123-45-6789

总结

正则表达式是处理文本的强大工具，掌握正则表达式的语法和使用技巧可以极大地提高文本处理的效率。本文详细介绍了 Python 中正则表达式的基本语法和常用实例，并探讨了正则表达式的高级用法和性能优化技巧。希望本文能帮助读者更好地理解和应用正则表达式。

Python之正则表达式常用语法实例分析

Python之正则表达式常用语法实例分析

目录

正则表达式简介

Python 中的 `re` 模块

正则表达式的基本语法

字符匹配

字符集

重复匹配

边界匹配

分组与捕获

贪婪与非贪婪匹配

特殊字符

常用正则表达式实例分析

匹配邮箱地址

匹配URL

匹配IP地址

匹配日期

匹配HTML标签

匹配手机号码

正则表达式的高级用法

条件匹配

零宽断言

命名分组

正则表达式的性能优化

总结

相关阅读

Python之正则表达式常用语法实例分析

Python之正则表达式常用语法实例分析

目录

正则表达式简介

Python 中的 re 模块

正则表达式的基本语法

字符匹配

字符集

重复匹配

边界匹配

分组与捕获

贪婪与非贪婪匹配

特殊字符

常用正则表达式实例分析

匹配邮箱地址

匹配URL

匹配IP地址

匹配日期

匹配HTML标签

匹配手机号码

正则表达式的高级用法

条件匹配

零宽断言

命名分组

正则表达式的性能优化

总结

相关阅读

Python 中的 `re` 模块