Python爬虫学习总结 爬虫(spider),是一种自动获取网络信息的程序。爬虫也称之为网页蜘蛛(Web Spider)。网络爬虫通常以自动化方式,遵守一定的规则,对网络中某些网页进行下载,然后提取其中的有用信息。爬虫的目的一般有以下几种:
1、搜集网络信息。 2、监控网站的变化。 3、对网站的服务器进行压力测试。 爬虫的工作过程主要包括三个步骤:
1、获取目标网页。 2、分析目标网页。 3、提取目标网页的有用信息。
获取目标网页 爬虫获取目标网页的方法主要有两种:
1、从网络上主动下载网页。 2、利用网页上的链接自动获取网页。
分析目标网页 爬虫获取目标网页后,需要对目标网页进行分析,以便提取网页中的有用信息。
提取目标网页的有用信息 爬虫分析目标网页后,需要对目标网页中的有用信息进行提取。