小白也能学会的Python网络爬虫
网络爬虫,英文名为Web Scraping,是一种从网上自动提取信息的程序。网络上有大量的数据,只有通过程序,才能有效的提取并整理。网络爬虫一般分为两类:通过浏览器自动化操作来获取数据;通过编写程序来解析网页源代码获取数据。
下面我们就来学习如何使用Python来实现网络爬虫。
首先我们需要安装一个第三方库:
```python pip install requests
```
Requests是用Python语言编写的,基于urllib,采用Apache2 Licensed开源协议的HTTP客户端库。Requests设计的核心思想是:让人写起来更简单。Requests可以让你以更简洁的方式来编写爬虫。
第一个简单的爬虫,我们来爬取豆瓣电影Top250的电影名称以及评分,代码如下:
```python import requests
url = 'https://movie.douban.com/top250'
response = requests.get(url)
print(response.text)
```
第一行我们导入了requests库,第二行我们指定了要爬取的网页,第三行我们通过get方法发送了一个get请求,得到了网页的源代码,并将结果赋值给response变量,最后一行我们调用response的text属性来输出网页源代码。
运行结果如下: