NO.01:C4.5算法
全称为Classifier 4.5,由1993年 J.Ross Quinlan 基于ID3算法迭代而来的分类算法,其核心是基于信息增益来做决策树生长。关于C4.5,ID3及CART算法的对比,可参考附文。
NO.02:K均值聚类算法
简而言之,聚类分析就是将研究对象(若干个个集合)按照某种标准分成若干类。相似性的度量,参考多种距离计算公式:欧式距离,绝对距离,切氏距离,明氏距离,马距氏离,兰距氏离。
案例1:聚类,其实就是近朱者赤
案例2: 客户分类是精细化运营的第一步
NO.03:SVM支持向量机
支持向量机(SVM)将一个超平面将数据分成两类。使得高维特征空间内两个类的边缘间隔最大,定义超平面的向量就被称为支持向量。在R语言中可以之间调用svm方法使用支持向量机分类。
NO.04:Apriori 关联算法
联系是普遍存在的,关联的存在本身是有价值的,在电商推荐中关联推荐是最简单最直接有效的。关联推荐的核心有三个度量:支持度,置信度,提升度.
NO.05:EM 最大期望算法
EM聚类(Expectation Maximization),一种基于统计分布的聚类模型,以统计分布作为设计算法的依据。其实,在大数定律的约束下,不管样本的分布类型是什么,当样本类趋于无穷多,分布的类型将渐进于正态分布。基于分布的均值,方差统计量来做分类。
NO.06:PageRank算法
了解Google公司,多半都对“PageRank”算法有所耳闻。该算法是一种典型的“从群众中来,到群众中去”的民主算法。在Google搜索排序中大放异彩。
NO.07:AdaBoost 迭代算法
通过集成多个弱分类器,来达到“三个臭皮匠,胜过诸葛亮”的分类效果,该算法简单可分为三步:
1,初始化样本的权重。
2,迭代训练弱分类器,弱分类器的算法用户可以自定义。
3,将各个弱分类器加权平均得到强分类器。
NO.08: K近邻算法
近邻就是你周围的人, 大多数就是K个人或物中具有的普遍的大多数的属性,大概率的预判你也拥有这种普遍的多数的属性。
NO.09:朴素贝叶斯算法
贝叶斯讨论的概率是基于个人的主观概念,表达对某事某物的相信程度。与概率学派提出的客观概率截然不同。
NO.10: CART 分类算法
算法的全称为:分类回归树,由Breiman在1984提出,该分类算法可以支持分类和回归问题。CART核心算法通过基尼系数代替信息增益。