爬取百度贴吧的时候遇到的问题就是爬下来有数据的代码都被注释掉了,python获取不到,所以要把代码注释取消掉
正常的html代码注释是这样的:
代码语言:javascript复制<!-- code -->
所以,只要把任意一办标签换成别的符号即可
代码语言:javascript复制from lxml import etree
import requests
url = 'https://tieba.baidu.com/f?kw=孙笑川'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
}
r = requests.get(url=url, headers=headers)
html = etree.HTML(r.text.replace('<!--',' ')) # 取消注释的代码
data_list = html.xpath('//a[@class="j_th_tit "]/text()')
for data in data_list:
print(data)
运行结果:
版权属于:kenvie
本文链接:https://cloud.tencent.com/developer/article/1937744
商业转载请联系作者获得授权,非商业转载请注明出处。