十大经典挖掘算法,一个都不少

2022-04-27 19:29:28 浏览数 (1)

NO.01:C4.5算法

全称为Classifier 4.5,由1993年 J.Ross Quinlan 基于ID3算法迭代而来的分类算法,其核心是基于信息增益来做决策树生长。关于C4.5,ID3及CART算法的对比,可参考附文。

NO.02:K均值聚类算法

简而言之,聚类分析就是将研究对象(若干个个集合)按照某种标准分成若干类。相似性的度量,参考多种距离计算公式:欧式距离,绝对距离,切氏距离,明氏距离,马距氏离,兰距氏离。

案例1:聚类,其实就是近朱者赤

案例2: 客户分类是精细化运营的第一步

NO.03:SVM支持向量机

支持向量机(SVM)将一个超平面将数据分成两类。使得高维特征空间内两个类的边缘间隔最大,定义超平面的向量就被称为支持向量。在R语言中可以之间调用svm方法使用支持向量机分类。

NO.04:Apriori 关联算法

联系是普遍存在的,关联的存在本身是有价值的,在电商推荐中关联推荐是最简单最直接有效的。关联推荐的核心有三个度量:支持度,置信度,提升度.

NO.05:EM 最大期望算法

EM聚类(Expectation Maximization),一种基于统计分布的聚类模型,以统计分布作为设计算法的依据。其实,在大数定律的约束下,不管样本的分布类型是什么,当样本类趋于无穷多,分布的类型将渐进于正态分布。基于分布的均值,方差统计量来做分类。

NO.06:PageRank算法

了解Google公司,多半都对“PageRank”算法有所耳闻。该算法是一种典型的“从群众中来,到群众中去”的民主算法。在Google搜索排序中大放异彩。

NO.07:AdaBoost 迭代算法

通过集成多个弱分类器,来达到“三个臭皮匠,胜过诸葛亮”的分类效果,该算法简单可分为三步:

1,初始化样本的权重。

2,迭代训练弱分类器,弱分类器的算法用户可以自定义。

3,将各个弱分类器加权平均得到强分类器。

NO.08: K近邻算法

近邻就是你周围的人, 大多数就是K个人或物中具有的普遍的大多数的属性,大概率的预判你也拥有这种普遍的多数的属性。

NO.09:朴素贝叶斯算法

贝叶斯讨论的概率是基于个人的主观概念,表达对某事某物的相信程度。与概率学派提出的客观概率截然不同。

NO.10: CART 分类算法

算法的全称为:分类回归树,由Breiman在1984提出,该分类算法可以支持分类和回归问题。CART核心算法通过基尼系数代替信息增益。

0 人点赞