正则表达式模式
模式字符串使用特殊的语法来表示一个正则表达式:
- 字母和数字表示他们自身,一个正则表达式模式中的字母和数字匹配同样的字符串。
re.search(r'H','Hello')
# 这里的 H 表示的就是字母 H 自身,代表有特殊含义
多数字母和数字前加一个反斜杠时会拥有不同的含义。
ret = re.search(r'd','he12ms90')
# 这里的 d 表示的是匹配数字
标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。
代码语言:javascript复制ret = re.search(r'.','hello') // 这里的 . 表示的是匹配任意字符
ret = re.search(r'.','he.llo') // 这里的 . 进行了转义,才表示标点符号自身。
反斜杠本身需要使用反斜杠转义。由于正则表达式通常都包含反斜杠,所以你最好使用原始字符串来表示它们。模式元素(如 r’t’,等价于t )匹配相应的特殊字符。
下表列出了正则表达式模式语法中的特殊元素,如果你使用模式的同时提供了可选的标志参数,某些模式元素的含义会改变。
非打印字符
非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列:
字符 | 描述 |
---|---|
cx | 匹配由x指明的控制字符。例如, cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 ‘c’ 字符。 |
f | 匹配一个换页符。等价于 x0c 和 cL。 |
n | 匹配一个换行符。等价于 x0a 和 cJ。 |
r | 匹配一个回车符。等价于 x0d 和 cM。 |
s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ fnrtv]。注意 Unicode 正则表达式会匹配全角空格符。 |
S | 匹配任何非空白字符。等价于 [^ fnrtv]。 |
t | 匹配一个制表符。等价于 x09 和 cI。 |
v | 匹配一个垂直制表符。等价于 x0b 和 cK。 |
特殊字符
所谓特殊字符,就是一些有特殊含义的字符。若要匹配这些特殊字符,必须首先使字符"转义",即,将反斜杠字符 放在它们前面。下表列出了正则表达式中的特殊字符:
特殊字符 | 描述 |
---|---|
( ) | 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 ( 和 )。 |
. | 匹配除换行符 n 之外的任何单字符。要匹配 . ,请使用 . 。 |
[ | 标记一个中括号表达式的开始。要匹配 [,请使用 [。 |
将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, ‘n’ 匹配字符 ‘n’。‘n’ 匹配换行符, 匹配 ,而 ( 则匹配 ( 。 | |
{ | 标记限定符表达式的开始。要匹配 {,请使用 {。 |
` | ` |
d | 匹配一个数字字符。等价于 [0-9]。 |
[0-9] | 匹配任何数字。等价于 d |
D | 匹配一个非数字字符。等价于 [^0-9]。 |
[a-z] | 匹配任何小写字母 |
[A-Z] | 匹配任何大写字母 |
[a-zA-Z0-9] | 匹配任何字母及数字。等价于w |
w | 匹配包括下划线的任何单词字符。等价于[A-Za-z0-9_]。 |
W | 匹配任何非单词字符。等价于 [^A-Za-z0-9_]。 |
[u4e00-u9fa5] | 匹配纯中文 |
定位符
定位符使您能够将正则表达式固定到行首或行尾。它们还使您能够创建这样的正则表达式,即匹配在某些模式之前或之后的位置。下表列出了定位符:
字符 | 描述 |
---|---|
^ | 匹配输入字符串的开始位置。如果设置了 MULTILINE 标志,还会与换行符后的位置匹配。 |
$ | 匹配输入字符串的结束位置。如果设置了 MULTILINE 标志,还会与换行符前的位置匹配。 |
A | 只匹配输入字符串的开始处。 |
Z | 只匹配输入字符串的结束处,或者在换行符前的最后一个字符处。 |
b | 匹配一个单词边界,也就是指单词和空格间的位置。例如,erb 可以匹配 “never” 中的 ‘er’,但不能匹配 “verb” 中的 ‘er’。 |
B | 匹配非单词边界。例如,erB 能匹配 “verb” 中的 ‘er’,但不能匹配 “never” 中的 ‘er’。 |
重复
下表列出了正则表达式中的重复相关的元字符及其含义:
字符 | 描述 |
---|---|
* | 匹配前一个字符零次或多次。 |
| 匹配前一个字符一次或多次。 |
? | 匹配前一个字符零次或一次。 |
{n} | 匹配前一个字符恰好 n 次。 |
{n,} | 匹配前一个字符至少 n 次。 |
{n,m} | 匹配前一个字符至少 n 次,但是不超过 m 次。 |
特殊序列
特殊序列是具有特殊含义的反斜杠开头的序列。下表列出了正则表达式中可用的特殊序列:
序列 | 描述 |
---|---|
A | 只匹配字符串开头。它和 ^ 的区别是,A 即使在 MULTILINE 模式下也只能匹配字符串开头的位置,而不是行首的位置。 |
b | 匹配一个单词边界,也就是指单词和空格间的位置。 |
B | 匹配非单词边界。 |
d | 匹配任意数字字符,等价于 [0-9]。 |
D | 匹配任意非数字字符,等价于 [^0-9]。 |
s | 匹配任意空白字符,包括空格、制表符、换行符等等。 |
S | 匹配任意非空白字符。 |
w | 匹配任意字母或数字字符,等价于 [a-zA-Z0-9]。 |
W | 匹配任意非字母或数字字符,等价于 [^a-zA-Z0-9]。 |
Z | 只匹配字符串的结束,即使在 MULTILINE 模式下也只能匹配字符串末尾的位置,而不是行尾的位置。 |
这些是正则表达式中常用的一些模式和元字符,用于匹配、查找和操作字符串。使用正则表达式可以快速、灵活地处理各种文本数据。