在编程世界里,处理字符串是一项基本而又常见的任务。无论是数据清洗、日志分析,还是文本处理,我们都可能会遇到需要从一大堆文本中提取出我们需要的信息的场景。
这时候,正则表达式(Regular Expression)就成为了我们强大的工具。Python 作为一门功能丰富的编程语言,自然也提供了对正则表达式的强力支持。
今天,就让我们一起来学习如何在 Python 中使用正则表达式,轻松搞定字符串处理任务。
正则表达式初探
在 Python 中使用正则表达式之前,我们首先需要引入 re
模块。
import re
由于 Python 字符串和正则表达式都使用 作为转义符,这有时会造成混淆。例如,当我们需要匹配字符
ABC-001
时:
s = 'ABC\-001' # 这里要注意 Python 字符串的转义
为了避免转义带来的麻烦,我们推荐使用 Python 的 r
前缀,这样字符串内部的表达式会被直接处理,不需要考虑转义的问题:
s = r'ABC-001' # 使用 r 前缀,更直观
常用操作实例
以下是使用正则表达式进行常见字符串操作的一些实例。
切分字符串
利用正则表达式可以非常灵活地切分字符串。
代码语言:python代码运行次数:0复制r = re.split(r'[s,;] ', 'a,b;; c d')
print(r) # 输出:['a', 'b', 'c', 'd']
匹配与查找
- 匹配普通字符:直接将字符本身作为匹配模式。
a = 'c |c#|php|python|java|javascript'
r = re.findall('Python', a)
print(r) # 输出:[]
- 匹配数字和非数字字符:
# 匹配数字和非数字字符
r = re.findall('d', a) # 数字
r = re.findall('D', a) # 非数字
- 匹配字符集:可匹配指定范围内的字符。
s = 'abc, acc, adc, aec, afc, ahc'
r = re.findall('a[cf]c', s) # 匹配 'acc', 'afc'
res = re.findall('a[^cf]c', s) # 排除 'acc', 'afc'
result = re.findall('a[c-f]c', s) # 匹配 'acc', 'adc', 'aec', 'afc'
使用数量词
正则表达式通过数量词来指定字符出现的次数,包括贪婪模式和非贪婪模式。
代码语言:python代码运行次数:0复制s = 'python46546java&79879php'
# 默认贪婪模式
r1 = re.findall('[a-z]{3,6}', s)
# 非贪婪模式
r2 = re.findall('[a-z]{3,6}?', s)
print(r1) # 输出:['python', 'java', 'php']
print(r2) # 输出:['pyt', 'hon', 'jav', 'php']
量词的使用:*, ,?
*
表示匹配前面的字符0次或多次。?
表示匹配前面的字符0次或1次。
s = 'pytho0python1pythonn2'
r1 = re.findall('python*', s) # 匹配 'python' 0次或多次
r2 = re.findall('python ', s) # 匹配 'python' 1次或多次
r3 = re.findall('python?', s) # 匹配 'python' 0次或1次
使用边界匹配
边界匹配可以帮助我们匹配字符串的开始或结束位置。
代码语言:python代码运行次数:0复制s = '10000146'
r1 = re.findall('^00000', s) # 查找开头为 00000 的字符串
r2 = re.findall('00000$', s) # 查找结尾为 00000 的字符串
进阶技巧
组合使用 group
和 sub
使用组(Group)提取数据,结合 sub
进行字符串的替换和处理,可以实现复杂的文本处理逻辑。
s = 'A8C34DD64GT79UI79D759'
def convert(value):
matched = value.group()
return '9' if int(matched) >= 6 else '0'
r = re.sub('d', convert, s)
使用 group
提取数据
对于复杂的匹配需求,group
可以帮助我们提取感兴趣的数据。
s = 'life is short , i use python'
r1 = re.search('life(.*)python', s)
print(r1.group(1)) # 输出:' is short , i use '
通过上面的示例,我们不难看出,正则表达式是处理文本字符串的强大工具。
希望本文能帮助你在 Python 编程之旅中,轻松驾驭正则表达式,解决各类字符串处理问题。