接下来几周的时间,我们将会推出关于《西瓜书》读书笔记的连载文章,updating~
在聚类(上)中我们了解了一下聚类算法的基本原理,同时也了解了最常用的聚类算法K-Means以及相关的优化算法,对于K-Means来说,我们可以称之为原型聚类算法,本节再让我们来了解一下密度聚类和层次聚类算法。
01
密度聚类
密度聚类算法假设聚类结构能通过样本分布的紧密程度确定,一般情况下,密度聚类算法从样本密度的角度来考察样本的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。
密度聚类算法的主要特点:
- 对噪声数据不敏感
- 发现任意形状的簇
- 一次扫描
- 需要密度参数来作为算法停止的条件
- 计算量大、复杂度高
DBSCAN的概念
DBSCAN的算法思想
DBSCAN的算法流程
02
层次聚类
层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构,对于数据集的划分我们即可以采用“自底向上”的策略,也可以采用“自顶向下”的策略。层次聚类的展示图如下:
AGNES算法