为了获取到一个html文件中的两个数据,以下使用python的 re 模块进行数据抓取。
Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。具体参考:http://www.runoob.com/python/python-reg-expressions.html
下图是网页源码:
以下是python源码:
# coding: utf-8
import re
import codecs
path = 'xxxxxx'
regex_str_suc = ">(d )/"
with codecs.open(path, "r",encoding='utf-8', errors='ignore') as fdata:
comtent = fdata.read()
result_suc = re.findall(regex_str_suc, comtent)[0]
print result_suc
regex_str_suc 是我的正则表达式,()中是我要获取的内容,d 代表要获取的是一段数字。这样就可以拿到我要取的数据了。