9个用来爬取网络站点的 Python 库

2019-04-18 16:13:05 浏览数 (4)

1️⃣Scrapy

一个开源和协作框架，用于从网站中提取所需的数据。以快速，简单，可扩展的方式。

官网

2️⃣cola

一个分布式爬虫框架。

GitHub

3️⃣Demiurge

基于 PyQuery 的爬虫微型框架。

官网

4️⃣feedparser

通用 feed 解析器。

官网

5️⃣Grab

Grab 是一个用于构建 Web scraper 的 python 框架。使用 Grab，您可以构建各种复杂性的 Web scraper，从简单的5行脚本到处理数百万个 Web 页面的复杂异步网站爬虫。 Grab 提供用于执行网络请求和处理所接收内容的 API。与 HTML 文档的 DOM 树交互。

官网

有想一起学习python，爬虫小伙伴，可以来一下我们的python学习交流q--u--n【 784758214 】，内有安装包和学习视频资料免费分享，零基础，进阶。好友都会在里面交流，分享一些学习的方法和需要注意的小细节，每天也会准时的讲一些项目实战案例

点击：加入

6️⃣MechanicalSoup

用于自动和网络站点交互的 Python 库。

GitHub

7️⃣portia

Scrapy 可视化爬取。允许你在不需要任何编程知识的情况下直观地抓取网站。使用 Portia 可以注释一个网页以识别您想要提取的数据，Portia 将根据这些注释了解如何从类似页面中抓取数据。

GitHub

8️⃣pyspider

一个强大的爬虫系统。

官网

9️⃣RoboBrowser

一个简单的，Python 风格的库，用来浏览网站，而不需要一个独立安装的浏览器。

官网

Latest release:2019.1.11

git github 开源 python scrapy

0 人点赞