正则表达式速查

2021-12-14 19:00:36 浏览数 (1)

表1.常用的元字符

代码/语法

说明

.

匹配除换行符以外的任意字符

w

匹配字母或数字

s

匹配任意的空白符

d

匹配数字

b

匹配单词的开始或结束

^

匹配字符串的开始

$

匹配字符串的结束

转义符

当要查找元字符本身,如.*,需要使用来取消这些字符的特殊意义。

重复

表2.常用的限定符

代码/语法

说明

*

重复零次或更多次

重复一次或更多次

?

重复零次或一次

{n}

重复n次

{n,}

重复n次或更多次

{n,m}

重复n到m次

字符类(choices)

[aeiou]匹配任何一个元音字母

[.?!]匹配标点符号(.或?或!)

[0-9]含意与d就是完全一致的

[a-z0-9A-Z]也完全等同于w

“或”条件or

0d{2}-d{8}|0d{3}-d{7}

匹配010-12345678两位区号或0376-2233445四位区号

分组

我们已经提到了怎么重复单个字符(直接在字符后面加上限定符就行了);但如果想要重复多个字符又该怎么办?你可以用小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了。

(d{1,3}.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次。

反义(取反,不匹配)

表3.常用的反义代码

代码/语法

说明

W

匹配任意不是字母和数字的字符

S

匹配任意不是空白符的字符

D

匹配任意非数字的字符

B

匹配不是单词开头或结束的位置

[^x]

匹配除了x以外的任意字符

[^aeiou]

匹配除了aeiou这几个字母以外的任意字符

例子:S 代表不包含空白符的字符串。

<a[^>] >代表用尖括号括起来的以a开头的字符串。

后向引用(引用分组)

表4.分组语法

捕获

(exp)

匹配exp,并捕获文本到自动命名的组里

(?<name>exp)

匹配exp,并捕获文本到名称为name的组里

(?:exp)

匹配exp,不捕获匹配的文本

位置指定

(?=exp)

匹配exp前面的位置

(?<=exp)

匹配exp后面的位置

(?!exp)

匹配后面跟的不是exp的位置

(?<!exp)

匹配前面不是exp的位置

注释

(?#comment)

这种类型的组不对正则表达式的处理产生任何影响,只是为了提供让人阅读注释

python的后向引用格式略有不同

https://blog.csdn.net/dnxbjyj/article/details/70837505

零宽断言(规定前面,后面是什么)

(?=exp),它断言自身出现的位置的后面能匹配表达式exp。比如bw (?=ingb),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找*I'm singing while you're dancing.时,它会匹配sing和danc。

(?<=exp),它断言自身出现的位置的前面能匹配表达式exp。比如(?<=bre)w b会匹配以re开头的单词的后半部分(除了re以外的部分),例如在查找reading a book时,它匹配ading。

负向零宽断言(规定前面,后面不能是什么)

(?!exp),断言此位置的后面不能匹配表达式exp。例如:d{3}(?!d)匹配三位数字,而且这三位数字的后面不能是数字;b((?!abc)w) b匹配不包含连续字符串abc的单词。

(?<!exp)断言此位置的前面不能匹配表达式exp。(?<![a-z])d{7}匹配前面不是小写字母的七位数字。

注释

正则也可以加注释

通过语法(?#comment)来包含注释。例如:2[0-4]d(?#200-249)|250-5|[01]?dd?(?#0-199)。

贪婪与懒惰

当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。

以这个表达式为例:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。

有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:

a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。

表5.懒惰量词

*?

重复任意次,但尽可能少重复

?

重复1次或更多次,但尽可能少重复

??

重复0次或1次,但尽可能少重复

{n,m}?

重复n到m次,但尽可能少重复

{n,}?

重复n次以上,但尽可能少重复

参考

  1. https://deerchao.cn/tutorials/regex/regex.htm#charclass 一篇不错的教程
  2. https://blog.nowcoder.net/n/406680df92b8493db5caa443ff4d8d07 python正则表达式练习
  3. https://blog.csdn.net/qq_42648305/article/details/113841756 python re库入门

0 人点赞