1. Scrapy
每位数据科学家的项目都是从处理数据开始的,而互联网则是最大、最丰富、最易访问的数据库。但可惜的是,数据科学家除了能通过pd.read_html函数来获取数据外,一旦涉及从那些数据结构复杂的网站上抓取数据时,他们大多都会毫无头绪。Web爬虫常用于分析网站结构和存储提取信息,但相较于重新构建网页爬虫,Scrapy使这个过程变得更加容易。
Scrapy用户界面非常简洁,但除此以外,效率高是其最大优势。Scrapy可以异步发送、调度和处理网站请求,也就是说:它在花时间处理和完成一个请求的同时,也可以发送另一个请求。Scrapy通过同时向一个网站发送多个请求的方法,使用非常快的爬行,以最高效的方式迭代网站内容。
除上述优点外,Scrapy还能让数据科学家用不同的格式(如:JSON,CSV或XML)和不同的后端(如:FTP,S3或local)导出存档数据。
2. Pattern
一些成熟完善的网站用来检索数据的方法可能更为具体,在这种情况下用Scrapy编写Web爬虫就有点“大材小用”了。而Pattern是Python中更高级的Web数据挖掘和自然语言处理模块。
Pattern不仅能无缝整合谷歌、推特和维基百科三者的数据,而且还能提供一个不太个性化的Web爬虫和HTML DOM解析器。它还采用了词性标注、n-grams搜索、情感分析和WordNet。不论是聚类分析,还是分类处理,又或是网络分析可视化,经Pattern预处理后的文本数据都可用于各种机器学习算法。
从数据检索到预处理,再到建模和可视化,Pattern可以处理数据科学流程中的一切问题,而且它也能在不同的库中快速传输数据。
3. Statsmodels
到底该采用何种统计建模方法?虽然每位数据科学家常对此犹豫不决,但Statsmodels是一个必须了解的Python库。因为它能实现Sci-kit Learn等标准机器学习库中没有的重要算法(如:ANOVA和ARIMA),而它最有价值之处在于其细节化处理和信息化应用。
例如,当数据科学家要用Statsmodels算一个普通最小二乘法时,他所需要的一切信息,不论是有用的度量标准,还是关于系数的详细信息,Statsmodels都能提供。库中实现的其他所有模型也是如此。这些是在Sci-kit learn中无法得到的!
OLS Regression Results |
---|
============================================================================== |
Dep. Variable: Lottery R-squared: 0.348 |
Model: OLS Adj. R-squared: 0.333 |
Method: Least Squares F-statistic: 22.20 |
Date: Fri, 21 Feb 2020 Prob (F-statistic): 1.90e-08 |
Time: 13:59:15 Log-Likelihood: -379.82 |
No. Observations: 86 AIC: 765.6 |
Df Residuals: 83 BIC: 773.0 |
Df Model: 2 |
Covariance Type: nonrobust |
=================================================================================== |
coef std err t P>|t| [0.025 0.975] |
----------------------------------------------------------------------------------- |
Intercept 246.4341 35.233 6.995 0.000 176.358 316.510 |
Literacy -0.4889 0.128 -3.832 0.000 -0.743 -0.235 |
np.log(Pop1831) -31.3114 5.977 -5.239 0.000 -43.199 -19.424 |
============================================================================== |
Omnibus: 3.713 Durbin-Watson: 2.019 |
Prob(Omnibus): 0.156 Jarque-Bera (JB): 3.394 |
Skew: -0.487 Prob(JB): 0.183 |
Kurtosis: 3.003 Cond. No. 702. |
============================================================================== |
对于数据科学家来说,掌握这些信息意义重大,但他们却常常太过信任一个自己并不真正理解的模型。因为高维数据不够直观,所以在部署这些数据之前,数据科学家有必要深入了解数据与模型。如果盲目追求像准确度或均方误差之类的性能指标,那么将造成负面影响。
Statsmodels不仅具有极其详细的统计建模,而且还能提供各种有用的数据特性和度量。例如,数据科学家们常会进行时序分解,因为它可以帮助他们更好地理解数据,以及分析何种转换和算法更为合适——这些信息非常有价值。
4. Mlxtend
Mlxtend是一个任何数据科学项目都可以应用的库。它可以说是Sci-kit learn库的扩展,能自动优化常见的数据科学任务:
- 全自动提取与选择特征
- 扩展Sci-kit learn库现有的数据转换器,如中心化处理和事务编码器。
- 大量的评估指标:包括偏差方差分解(即测量模型中的偏差和方差)、特征点检测、McNemar测试、F测试等。
- 模型可视化,包括特征边界、学习曲线、PCA交互圈和富集图绘。
- 含有许多Sci-kit Learn库中没有的内置数据集
- 图像与文本预处理功能,如名称泛化器,可以识别并转换具有不同命名系统的文本(如:它能识别“Deer,John”,“J.Deer”,“J.D.”和“John Deer”是相同的)。
Mlxtend还有非常实用的图像处理功能,比如它可以提取面部标志:
再来看看它的决策边界绘制功能吧:
5. REP
与Mlxtend一样,REP也可以被看作是Sci-kit学习库的扩展,但更多的是在机器学习领域。首先,它是一个统一的Python包装器,用于从Sci-kit-learn扩展而来的不同机器学习库。它可以将Sci-kit learn与XGBoost、Pybrain、Neurolab等更专业的机器学习库整合在一起。
例如,当数据科学家想要通过一个简单的包装器将XGBoost分类器转换为Bagging分类器,再将其转换为Sci-kit-learn模型时,只有REP能做到,因为在其他库中无法找到像这种易于包装和转换的算法。
除此之外,REP还能实现将模型从任何库转换为交叉验证(折叠)和堆叠模型。它还有一个极快的网格搜索功能和模型工厂,可以帮助数据科学家在同一个数据集里有效地使用多个机器学习分类器。
同时使用REP和Sci-kit learn,就能更轻松自如地构建模型。