数据分析前,要提取清洗文本中的关键字,使用正则表达式可以快速的提取内容。
# 中文输入
# -*- coding:utf-8 -*-
# 引入pandas和re库
import pandas as pd
import re
# path路径,header=0默认第一行数据作为列名,读取excel
df = pd.read_excel('2020.5.20.xlsx', header=0)
# 一行转换为列表为内容
contents = list(df['Content1'])
# 返回列表的长度
a = len(contents)
print(f'共有{a}个待处理数据 ')
date = []
for i in range(0, a):
# 循环,提取第i行的内容
content = contents[i]
# 正则表达式提取内容关键字
results = re.findall(r'1[0-9]{10}', content)
try:
result = results[0]
except:
result = ''
# 关键字增加进行
date.append(result)
print(result)
print(i)
# 写入行
df['联系人']= date
# 写入excel结果文件
df.to_excel('result.xlsx')
正则表达式测试网址
https://hiregex.com/