入门数据分析,就必须要了解数据挖掘的一些方法,其中比较常提到的有回归分析。
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在大数据分析中,它是一种预测性的建模技术,它研究的是因变量y(目标)和影响它的自变量x(预测器)之间的回归模型,从而预测因变量y的发展趋向。当有多个自变量时,可以研究每个自变量x对因变量y的影响强度。
回归分析的分类:
- 按照自变量的多少分为:一元回归分析和多元回归分析;
- 按照因变量的多少分为:简单回归分析和多重回归分析;
- 按照自变量和因变量之间的相关关系不同分为:线性回归分析和非线性回归分析。
而回归算法正是基于上述三种度量,利用技术建立的一种模型。回归算法有很多种,甚至你也可以自己创造出一种没被使用过的算法。
但在创新之前,一些常见的回归算法有必要了解:
Linear Regression线性回归
线性回归也被称为最小二乘回归,通常是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。
Polynomial Regression多项式回归
在分析数据的时候,我们会遇到不同的数据分布情况,当数据点呈现带状分布的时候我们会选择线性回归的方法去拟合,但是如何数据点是一条曲线的时候使用线性回归的方法去拟合效果就不是那么好了,这个时候我们可以使用多项式回归的方法。多项式回归模型就是利用多项式对数据进行拟合得到的回归模型。
Stepwise Regression逐步回归
在处理多个自变量时,我们可以使用这种形式的回归。这种建模技术的目的是使用最少的预测变量数来最大化预测能力。逐步回归法选择变量的过程包含两个基本步骤:一是从回归模型中剔出经检验不显著的变量,二是引入新变量到回归模型中,常用的逐步回归方法有向前法和向后法。
Ridge Regression岭回归
岭回归是线性回归的重要改进,增加了误差容忍度。如果数据集合矩阵存在多重共线性(数学上称为病态矩阵),那么线性回归对输入变量中的噪声非常的敏感,如果输入变量x有一个微小的变动,其反应在输出结果上也会变得非常大,其解会极为不稳定。为了解决这个问题,就有了优化算法——岭回归。岭回归通过对系数的大小施加惩罚来解决线性回归的一些问题。
Lasso Regression套索回归
套索回归与岭回归类似,会对回归系数的绝对值添加一个罚值。此外,它能降低偏差并提高线性回归模型的精度。与岭回归有一点不同,它在惩罚部分使用的是绝对值,而不是平方值。这导致惩罚(即用以约束估计的绝对值之和)值使一些参数估计结果等于零。使用的惩罚值越大,估计值会越趋近于零。
ElasticNet Regression 弹性网络回归
ElasticNet是Lasso和Ridge回归技术的混合体。岭回归是使用二范数(平方项)来对代价函数进行有偏分析。Lasson回归则是使用一范数(绝对值项)对代价函数进行有偏分析。而ElasticNet是将二者结合,即使用平方项又使用绝对值项。
Bayesian Regression贝叶斯回归
贝叶斯回归可以用于在预估阶段的参数正则化:正则化参数的选择不是通过人为的选择,而是通过手动调节数据值来实现。
Robust Regression稳健回归
当最小二乘法遇到数据样本点存在异常点的时候,Robust回归可用于代替最小二乘法。当然,Robust回归还可以用于异常点检测,或者是找出那些对模型影响最大的样本点。
RandomForestRegressor随机森林回归
随机森林可以应用在分类和回归问题上。实现这一点,取决于随机森林的每颗cart树是分类树还是回归树。如果是回归树,则cart树是回归树,采用的原则是最小均方差。
XGBoost回归
基本所有的机器学习比赛的冠军方案都使用了XGBoost算法。
SVR支持向量回归
SVR回归,就是找到一个回归平面,让一个集合的所有数据到该平面的距离最近。 由于数据不可能都在回归平面上,距离之和还是挺大,因此所有数据到回归平面的距离可以给定一个容忍值防止过拟合。该参数是经验参数,需要人工给定。
Decision Tree Regressor决策树回归
决策树模型是运用于分类以及回归的一种树结构。决策树由节点和有向边组成,一般一棵决策树包含一个根节点、若干内部节点和若干叶节点。决策树的决策过程需要从决策树的根节点开始,待测数据与决策树中的特征节点进行比较,并按照比较结果选择选择下一比较分支,直到叶子节点作为最终的决策结果。
Poisson Regression泊松回归
泊松回归用于描述单位时间、单位面积或者单位容积内某事件发现的频数分布情况,通常用于描述稀有事件(即小概率)事件发生数的分布。
上述的很多模型,我们都可以利用pandas和numpy对数据进行操作,使用matplotlib进行图像化,使用sklearn进行数据集训练与模型导入。