文章大纲
- 简介
- 聚类算法的分类
- 相似性度量方法
- 大数据聚类算法
- spark 中的聚类算法
- 聚类算法对比
- 性能对比
- 效果对比
- 参考文献
简介
随着数据量的迅速增加如何对大规模数据进行有效的聚类成为挑战性的研究课题,面向大数据的聚类算法对传统金融行业的股票投资分析、 互联网金融行业中的客户细分等金融应用领域具有重要价值, 本文对已有的大数据聚类算法,以及普通聚类算法做一个简单介绍
聚类分析是伴随着统计学、计算机学与人工智能等领域科学的发展而逐步发展起来的,为此,这些领域若有较大的研究进展,必然促进聚类分析算法的快速发展。
比如机器学习领域的人工神经网络与支持向量机的发展就出现促生了基于神经网络的聚类方法与核聚类方法。目前,基于人工神经网络的深度学习(如:AlphaGo围棋系统)也必将推动聚类分析方法的进一步发展。到目前为止,聚类研究及其应用领域已经非常广泛,因此,本文主要以聚类分析算法为主要分析对象,兼论聚类分析的全过程。 关于聚类分析,《数据挖掘概念与技术(第二版)》一书中已经有了经典的论述。然而,聚类算法又有了长足的发展与进步。
聚类算法的分类
相似性度量方法
3)曼哈顿距离(Manhattan Distance)。 在城市中生活,只能沿着街道从一个地方到另一个地方,为此,人们将生活中熟悉的城市街区距离(City Block Distance)形象地称为曼哈顿距离。 曼哈顿距离在基于自适应谐振理论(Adaptive Resonance Theory, ART)的同步聚类(SYnchronization Clustering, SYC)中有较好的应用;但是,需要注意的是这种距离不再符合在特征空间中转化和旋转的不变性。 4)闵可夫斯基距离(Minkowski Distance)。 闵可夫斯基距离是一种p范数的形式,公式可以表示为: 从式(10)可见:若p为无穷大时,这种距离可以称为切比雪夫距离;若p=2时就是欧几里得距离;那么当p=1时,就是曼哈顿距离。 5)马氏距离(Mahalanobis Distance)。 马氏距离是一种关于协方差矩阵的距离度量表示方法,其公式为:
马氏距离的优点是距离与属性的量纲无关,并排除了属性之间的相关性干扰。若各个属性之间独立同分布,则协方差矩阵为单位矩阵。这样,平方马氏距离也就转化为了欧氏距离[18-19]。 6)对称点距离(Point Symmetry Distance)。 当聚类存在对称模式时,就可以使用对称点距离。其表示公式为: 对称点距离是该点到对称点和其他点距离的最小值。 7)相关系数(Correlation Coefficient)。 距离度量也可以源于相关系数[20],如皮尔逊相关系数的定义为: 8)余弦相似度(Cosine Similarity)。 最后一种直接计算相似性的方法是余弦相似度。其表示形式为: 这里,S表示样本之间的相似性(以下同)。在特征空间中,两个样本越相似,则它们越趋向于平行,那么它们的余弦值也就越大。 在这8类聚类相似度测量方法中,需要注意的是最后三类相似性计算方法不再符合对称性、非负性与反身性的要求,即属于非可度量的范畴。连续性变量的相似性度量方法在不同聚类算法中的应用,如表1所示。
大数据聚类算法
spark 中的聚类算法
- http://spark.apache.org/docs/latest/ml-clustering.html
spark 支持的聚类算法有以下几个:
- K-means
- Latent Dirichlet allocation (LDA)
- Bisecting k-means
- Gaussian Mixture Model (GMM)
- Power Iteration Clustering (PIC)
聚类算法对比
性能对比
效果对比
出自 sklearn:
- https://scikit-learn.org/stable/modules/clustering.html#clustering
参考文献
- [1]海沫. 大数据聚类算法综述[J]. 计算机科学(S1期):380-383.
- [1]伍育红. 聚类算法综述[J]. 计算机科学, 2015, 42(0z1):491-499,524.
- 谱聚类:https://blog.csdn.net/yc_1993/article/details/52997074