Python热门库是哪些呢,爬取下载信息探索探索

2022-01-07 15:35:29 浏览数 (1)

前言

近期有读者分享了一个网站,可以用来查 Python 第三方库的信息,包含了库的介绍版本,近 30 天总下载量,近 30 天 pip 下载量:

https://www.pyprapi.top/docs

搜索了一下资料 Python 语言有超过12万个第三方库,覆盖信息技术几乎所有领域。

小编自己安装第三方库时,基本用 pip 就可以解决了,但有时候有些库 pip 还真安装不了,就去下载 whl 文件来装。

小编下载 whl 文件都是从下面这个网站下载的,这算比较全的了,包含很多库,基本能找到需要的库:

https://www.lfd.uci.edu/~gohlke/pythonlibs/

从这个网站爬取所有库名,在爬取库近 30 天下载量,描述简介信息。

虽然很多库不知道是干嘛的,没用过,但可以根据数据,分析一下热门的第三方库是哪些,描述简介涉及哪个方向的是比较多的。

数据获取

先从第三方库网站爬取获得所有库名,再爬取每一个库近 30 天下载量,描述信息,最后保存数据,整个逻辑并不难,完整源代码文末获取:

可视化

对近 30 天下载量降序排序,最高的第三方库下载量居然高达 2 亿!

小编查了查,这个库是一个和 web 开发有关的库:

我们直接通过词云图来看看近 30 天第三方库的下载量主要分布:

上面讲的 botocore 是一个 web 相关的库,boto3 也是。

setuptools 是 pip 安装的一个必备模块,大概率是环境出了问题,不能安装包,才先来下这个。

紧接着可以看到 urllib3,requests 这两库,这就比较熟悉了,爬虫方向所使用的,近几年爬虫渐渐走进大众视野,引起了很多人的兴趣。

还有 pandas,numpy 数据处理库,机器学习,大数据喊的最热的这些词,在 Python 处理清洗数据中比较常用的就这两个库。

其他库就不多说了,第三方库实在是太多了,从那个网站上采集到了 1700 多个库名,通过所有描述信息,看看涉及最多的方向是哪些:

io,file 读写文件数据流,看来是比较多的模块都会涉及到的。

image,img 图片图像,各种绘制图表的库,图像处理等,现在出现了很多,如典型的 matplotlib,PIL,seaborn,pyecharts等,可视化数据,图像数据处理也是一个比较热门的方向。

data 可以联想到数据时代,Python 处理采集数据有着一定的优势,所以爬虫相关的 requests,urllib3,处理数据相关的 pandas,numpy 下载量相对较高。

2022年了,祝大家新年快乐,找到自己感兴趣的方向,一路前行~

感兴趣的读者可以继续探索探索噢。

0 人点赞