表1.常用的元字符
代码/语法 | 说明 |
---|---|
. | 匹配除换行符以外的任意字符 |
w | 匹配字母或数字 |
s | 匹配任意的空白符 |
d | 匹配数字 |
b | 匹配单词的开始或结束 |
^ | 匹配字符串的开始 |
$ | 匹配字符串的结束 |
转义符
当要查找元字符本身,如.
或*
,需要使用来取消这些字符的特殊意义。
重复
表2.常用的限定符
代码/语法 | 说明 |
---|---|
* | 重复零次或更多次 |
| 重复一次或更多次 |
? | 重复零次或一次 |
{n} | 重复n次 |
{n,} | 重复n次或更多次 |
{n,m} | 重复n到m次 |
字符类(choices)
[aeiou]匹配任何一个元音字母
[.?!]匹配标点符号(.或?或!)
[0-9]含意与d就是完全一致的
[a-z0-9A-Z]也完全等同于w
“或”条件or
如0d{2}-d{8}|0d{3}-d{7}
匹配010-12345678两位区号或0376-2233445四位区号
分组
我们已经提到了怎么重复单个字符(直接在字符后面加上限定符就行了);但如果想要重复多个字符又该怎么办?你可以用小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了。
如(d{1,3}.){3}
匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次。
反义(取反,不匹配)
表3.常用的反义代码
代码/语法 | 说明 |
---|---|
W | 匹配任意不是字母和数字的字符 |
S | 匹配任意不是空白符的字符 |
D | 匹配任意非数字的字符 |
B | 匹配不是单词开头或结束的位置 |
[^x] | 匹配除了x以外的任意字符 |
[^aeiou] | 匹配除了aeiou这几个字母以外的任意字符 |
例子:S 代表不包含空白符的字符串。
<a[^>] >代表用尖括号括起来的以a开头的字符串。
后向引用(引用分组)
表4.分组语法
捕获 | |
---|---|
(exp) | 匹配exp,并捕获文本到自动命名的组里 |
(?<name>exp) | 匹配exp,并捕获文本到名称为name的组里 |
(?:exp) | 匹配exp,不捕获匹配的文本 |
位置指定 | |
(?=exp) | 匹配exp前面的位置 |
(?<=exp) | 匹配exp后面的位置 |
(?!exp) | 匹配后面跟的不是exp的位置 |
(?<!exp) | 匹配前面不是exp的位置 |
注释 | |
(?#comment) | 这种类型的组不对正则表达式的处理产生任何影响,只是为了提供让人阅读注释 |
python的后向引用格式略有不同
https://blog.csdn.net/dnxbjyj/article/details/70837505
零宽断言(规定前面,后面是什么)
(?=exp)
,它断言自身出现的位置的后面能匹配表达式exp。比如bw (?=ingb)
,匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找*I'm singing while you're dancing.
时,它会匹配sing和danc。
(?<=exp)
,它断言自身出现的位置的前面能匹配表达式exp。比如(?<=bre)w b
会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading a book
时,它匹配ading。
负向零宽断言(规定前面,后面不能是什么)
(?!exp)
,断言此位置的后面不能匹配表达式exp。例如:d{3}(?!d)
匹配三位数字,而且这三位数字的后面不能是数字;b((?!abc)w) b匹配不包含连续字符串abc的单词。
(?<!exp)
断言此位置的前面不能匹配表达式exp。(?<![a-z])d{7}
匹配前面不是小写字母的七位数字。
注释
正则也可以加注释
通过语法(?#comment)
来包含注释。例如:2[0-4]d(?#200-249)|250-5|[01]?dd?(?#0-199)。
贪婪与懒惰
当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。
以这个表达式为例:a.*b
,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab
的话,它会匹配整个字符串aabab
。这被称为贪婪匹配。
有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:
a.*?b
匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab
的话,它会匹配aab
(第一到第三个字符)和ab
(第四到第五个字符)。
表5.懒惰量词
*? | 重复任意次,但尽可能少重复 |
---|---|
? | 重复1次或更多次,但尽可能少重复 |
?? | 重复0次或1次,但尽可能少重复 |
{n,m}? | 重复n到m次,但尽可能少重复 |
{n,}? | 重复n次以上,但尽可能少重复 |
参考
- https://deerchao.cn/tutorials/regex/regex.htm#charclass 一篇不错的教程
- https://blog.nowcoder.net/n/406680df92b8493db5caa443ff4d8d07 python正则表达式练习
- https://blog.csdn.net/qq_42648305/article/details/113841756 python re库入门