用于数据收集、数据清理、可视化的Python库

2019-08-26 18:01:14 浏览数 (1)

Python库种类很多,本文介绍了用于数据清理、数据操作、可视化的Python库。

01

用于数据收集

1、Beautiful Soup

传送门:

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Beautiful Soup是一个HTML和XML解析器,可为被解析的页面创建解析树,从而用于从web页面中提取数据。从网页中提取数据的过程称为网页抓取。

2、Scrapy

传送门:

https://docs.scrapy.org/en/latest/intro/tutorial.html

Scrapy是另一个可有效用于网页抓取的Python库。它是一个开源的协作框架,用于从网站中提取所需数据。使用起来快捷简单。

3、Selenium

传送门:

https://www.seleniumhq.org/

Selenium是一个倍受欢迎的自动化浏览器工具。在业界常用于测试,但对于网页抓取也非常方便。Selenium在IT领域非常流行。

02

用于数据清理

1、Pandas

传送门:

https://pandas.pydata.org/pandas-docs/stable/

Pandas一度是最流行的Python库。Pandas是用Python语言编写的,主要用于数据操作和数据分析。

2、PyOD

传送门:

https://pyod.readthedocs.io/en/latest/

PyOD是一个全面的、可伸缩的Python工具包,用于检测外围对象。离群值检测基本上是识别与大多数数据显著不同的稀有项或观测值。

3、NumPy

传送门:

https://www.numpy.org/

NumPy也是一个非常受欢迎的Python库。NumPy引入了支持大型多维数组和矩阵的函数,同时还引入了高级数学函数来处理这些数组和矩阵。NumPy是一个开源库,有多方贡献者。

4、SpaCy

传送门:

https://spacy.io/

Spacy是一个非常有用且灵活的自然语言处理库和框架,用于清理创建模型的文本文档。与类似用途的其他库相比,SpaCy速度更快。

03

用于数据可视化

1.Matplotlib

传送门:

https://matplotlib.org/

Matplotlib是Python中最流行的数据可视化库。允许生成和构建各种各样的图。Matplotlib是笔者的首选库,可与Seaborn一起用于进行数据可视化研究。

2、Seaborn

传送门:

https://seaborn.pydata.org/

Seaborn是另一个基于matplotlib的绘图库。它是一个为绘制有吸引力的图像而提供高级接口的python库。

3、Bokeh

传送门:

https://bokeh.pydata.org/en/latest/

Bokeh是一个面向现代网页浏览器的交互式可视化库,为大量数据集提供优美的通用图形结构。

0 人点赞