聚类总结
1.聚类 机器学习 任务
聚类 无label的 分类 label是离散的 回归 label是连续的
2.聚类算法-kmeans 划分聚类
思想: D中选取k个作为初始质心 repeat 计算所有点与质心的距离,分到近的质心簇 更新簇之间的质心 until 质心不改
不足: 受到初始质心的位置的影响 受到k值得影响
评价:轮廓系数 簇内的密集 不同簇之间差异大
3.聚类算法-层次聚类
方法:自底向上凝聚法 自顶向下分裂法 效果:实现一个门纲目科属种的层次结构
4.自底向上凝聚法
思路: 每个簇都是独立的, 计算数据间的相识度矩阵 repeat 把最相似的合为一个簇 更新相似度矩阵 until 簇为1
5.自顶向下分裂法
思路:
相似度计算法方法: 单链接最近的点 全连接最远的点 组平均所有点的平均
DBSCAN算法:
邻域:距离x点在e内的 核心点:邻域之内的样本点>=MINpts 边界点:邻域之内的样本点<MINpts 直接密度可达:Xj位于Xi的邻域内,Xi是核心点,那么Xi与Xj是直接密度可达 密度可达:Xj位于Xi的邻域内,Xi是核心点,那么Xi与Xj是直接密度可达 密度相连:有共同的密度可达点
簇:所有密度相连的样本点集合
思想: