十大经典挖掘算法，一个都不少

NO.01：C4.5算法

全称为Classifier 4.5，由1993年 J.Ross Quinlan 基于ID3算法迭代而来的分类算法，其核心是基于信息增益来做决策树生长。关于C4.5,ID3及CART算法的对比，可参考附文。

NO.02：K均值聚类算法

简而言之，聚类分析就是将研究对象（若干个个集合）按照某种标准分成若干类。相似性的度量，参考多种距离计算公式：欧式距离，绝对距离，切氏距离，明氏距离，马距氏离，兰距氏离。

案例1：聚类，其实就是近朱者赤

案例2: 客户分类是精细化运营的第一步

NO.03：SVM支持向量机

支持向量机（SVM）将一个超平面将数据分成两类。使得高维特征空间内两个类的边缘间隔最大，定义超平面的向量就被称为支持向量。在R语言中可以之间调用svm方法使用支持向量机分类。

NO.04：Apriori 关联算法

联系是普遍存在的，关联的存在本身是有价值的，在电商推荐中关联推荐是最简单最直接有效的。关联推荐的核心有三个度量：支持度，置信度，提升度.

NO.05：EM 最大期望算法

EM聚类（Expectation Maximization），一种基于统计分布的聚类模型，以统计分布作为设计算法的依据。其实，在大数定律的约束下，不管样本的分布类型是什么，当样本类趋于无穷多，分布的类型将渐进于正态分布。基于分布的均值，方差统计量来做分类。

NO.06：PageRank算法

了解Google公司，多半都对“PageRank”算法有所耳闻。该算法是一种典型的“从群众中来，到群众中去”的民主算法。在Google搜索排序中大放异彩。

NO.07：AdaBoost 迭代算法

通过集成多个弱分类器，来达到“三个臭皮匠，胜过诸葛亮”的分类效果，该算法简单可分为三步：

1，初始化样本的权重。

2，迭代训练弱分类器，弱分类器的算法用户可以自定义。

3，将各个弱分类器加权平均得到强分类器。

NO.08： K近邻算法

近邻就是你周围的人，大多数就是K个人或物中具有的普遍的大多数的属性，大概率的预判你也拥有这种普遍的多数的属性。

NO.09：朴素贝叶斯算法

贝叶斯讨论的概率是基于个人的主观概念，表达对某事某物的相信程度。与概率学派提出的客观概率截然不同。

NO.10： CART 分类算法

算法的全称为：分类回归树，由Breiman在1984提出，该分类算法可以支持分类和回归问题。CART核心算法通过基尼系数代替信息增益。

0 人点赞