requests库编写的爬虫程序没有那么难!

2023-11-06 10:36:39 浏览数 (2)

下文是用requests库编写的爬虫程序,用于爬取toutiao上的图片。程序使用了爬虫ip服务器,爬虫ip服务器的地址为duoip,端口号为8000。

代码语言:javascript复制
import requests
from bs4 import BeautifulSoup

# 设置爬虫ip服务器
proxy_host = 'duoip'
proxy_port = 8000
proxy = {'http': 'http://'   proxy_host   ':'   str(proxy_port),
         'https': 'http://'   proxy_host   ':'   str(proxy_port)}

# 发送GET请求
url = 'toutiao'
response = requests.get(url, proxies=proxy)

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 找到所有img标签
images = soup.find_all('img')

# 打印图片的src属性
for image in images:
    print(image.get('src'))

这个程序首先设置了爬虫ip服务器,然后使用requests库发送了一个GET请求到toutiao。请求使用了设置的爬虫ip

服务器。然后,使用BeautifulSoup库解析了返回的HTML内容。最后,程序找到了所有img标签,并打印出了它们的src属性,这些属性就是图片的URL。

0 人点赞