直接回答问题,不用告诉我你选了什么!
Python爬虫技术实现网页数据抓取
网络爬虫(又被称作网页蜘蛛,网页机器人,在FOAF社区中间称为爬行者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些网络资源,如CDDB资源,由于其规则比较明确,也可以使用网络爬虫来抓取。
网络爬虫一般遵循网页的链接来索引网页,网络爬虫的目标是尽可能地抓取网页,这就要求网络爬虫能够从一个页面的链接自动发现下一个页面,然后抓取,这个过程反复进行,直到抓取完所有需要的页面。
网络爬虫通常属于有目的地抓取网页链接的网页信息,例如产品数据、电子邮件的地址,或者其他的信息。网络爬虫可以从一个种子网页开始抓取,然后自动遍历网页链接,直到抓取完所有的网页。
网络爬虫的简单实现
网络爬虫的实现原理非常简单,就是根据URL地址,发送HTTP请求获取网页内容,然后进行解析,提取我们需要的数据。
实现网络爬虫需要借助一些工具,比如爬虫框架Scrapy、URL解析库lxml、html解析库 BeautifulSoup等。
下面我们用python实现一个简单的网络爬虫,来抓取糗事