Python库种类很多,本文介绍了用于数据清理、数据操作、可视化的Python库。
01
用于数据收集
1、Beautiful Soup
传送门:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
Beautiful Soup是一个HTML和XML解析器,可为被解析的页面创建解析树,从而用于从web页面中提取数据。从网页中提取数据的过程称为网页抓取。
2、Scrapy
传送门:
https://docs.scrapy.org/en/latest/intro/tutorial.html
Scrapy是另一个可有效用于网页抓取的Python库。它是一个开源的协作框架,用于从网站中提取所需数据。使用起来快捷简单。
3、Selenium
传送门:
https://www.seleniumhq.org/
Selenium是一个倍受欢迎的自动化浏览器工具。在业界常用于测试,但对于网页抓取也非常方便。Selenium在IT领域非常流行。
02
用于数据清理
1、Pandas
传送门:
https://pandas.pydata.org/pandas-docs/stable/
Pandas一度是最流行的Python库。Pandas是用Python语言编写的,主要用于数据操作和数据分析。
2、PyOD
传送门:
https://pyod.readthedocs.io/en/latest/
PyOD是一个全面的、可伸缩的Python工具包,用于检测外围对象。离群值检测基本上是识别与大多数数据显著不同的稀有项或观测值。
3、NumPy
传送门:
https://www.numpy.org/
NumPy也是一个非常受欢迎的Python库。NumPy引入了支持大型多维数组和矩阵的函数,同时还引入了高级数学函数来处理这些数组和矩阵。NumPy是一个开源库,有多方贡献者。
4、SpaCy
传送门:
https://spacy.io/
Spacy是一个非常有用且灵活的自然语言处理库和框架,用于清理创建模型的文本文档。与类似用途的其他库相比,SpaCy速度更快。
03
用于数据可视化
1.Matplotlib
传送门:
https://matplotlib.org/
Matplotlib是Python中最流行的数据可视化库。允许生成和构建各种各样的图。Matplotlib是笔者的首选库,可与Seaborn一起用于进行数据可视化研究。
2、Seaborn
传送门:
https://seaborn.pydata.org/
Seaborn是另一个基于matplotlib的绘图库。它是一个为绘制有吸引力的图像而提供高级接口的python库。
3、Bokeh
传送门:
https://bokeh.pydata.org/en/latest/
Bokeh是一个面向现代网页浏览器的交互式可视化库,为大量数据集提供优美的通用图形结构。