Python解析百度贴吧,去掉代码注释

2022-01-20 16:29:42 浏览数 (1)

爬取百度贴吧的时候遇到的问题就是爬下来有数据的代码都被注释掉了,python获取不到,所以要把代码注释取消掉

正常的html代码注释是这样的:

代码语言:javascript复制
<!-- code -->

所以,只要把任意一办标签换成别的符号即可

代码语言:javascript复制
from lxml import etree
import requests

url = 'https://tieba.baidu.com/f?kw=孙笑川'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
}
r = requests.get(url=url, headers=headers)
html = etree.HTML(r.text.replace('<!--',' ')) # 取消注释的代码
data_list = html.xpath('//a[@class="j_th_tit "]/text()')
for data in data_list:
    print(data)

运行结果:

版权属于:kenvie

本文链接:https://cloud.tencent.com/developer/article/1937744

商业转载请联系作者获得授权,非商业转载请注明出处。

0 人点赞