网络数据采集之抓取简单页面链接

2023-03-09 15:04:30 浏览数 (3)

任务:抓取页面的链接并返回。

代码语言:javascript复制
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("https://blog.csdn.net/mercury_lc") # 打开链接
bsObj = BeautifulSoup(html,features='lxml') # 把这个页面的html放到bs4中
# print(bsObj)
cnt = 0
for link in bsObj.findAll("a"):
    if 'href' in link.attrs: # html标签的属性字典
        #print(link.attrs)
        print(link.attrs['href']) # 这是包括好几个的,只要href就可以
        cnt  = 1
print("网页链接数量:")
print(cnt)

这里当然是ctrl v的课本啦,重在学习 BeautifulSoup 的这个的四个对象类型。

0 人点赞