多元统计分析:聚类分析

2022-04-01 14:29:39 浏览数 (3)

简介

步骤

1. 选择距离公式

代码语言:javascript复制
dist(X, method = "euclidean", p = 2)

method 有 euclidean, maximum, manhattan, canberra, (binary 或 minkowski) p 为 Minkowski 距离的幂次,默认为 p = 2(欧氏距离)

  1. 明氏距离(Minkowski)

明氏距离 分为: 当 q = 1 时 ---> 绝对值距离(Manhattan) 当 q = 2 时 ----> 欧氏距离(Euclidean) 当

q=∞

时 -----> 切比雪夫距离(Maximum)

  1. 马氏距离(Manhattan)
  2. 兰氏距离(Canberra)

PS:TODO:突然发现 马氏距离和绝对值距离的英文怎么一样

2. 选择系统聚类方法

系统聚类法(Hierachical Clustering Method)

代码语言:javascript复制
hclust(D, method = "complete", ...)

method 有 single, complete, average, mcquitty, median, centroid, ward.D, ward.D2 D 为 相似矩阵,通常为 距离矩阵

1. 最短距离法(single)

2. 最长距离法(complete)

3. 中间距离法(median)

4. 类平均法(average)

5. 重心法(centroid)

6. 离差平方和法(Ward)

3. 聚类图

代码语言:javascript复制
plot(hc)

4. 分类框

代码语言:javascript复制
# 注意;分类框一定要与plot一起执行,因为是要 加在聚类图上
plot(hc);rect.hclust(hc, 4) # 分4类 加4分类框

5. 分类结果

代码语言:javascript复制
cutree(hc, 4) # 分4类 显示分类结果

Q&A

补充

参考

  • 《多元统计分析与R语言建模》(第五版)王斌会
  • 本文作者: yiyun
  • 本文链接: https://moeci.com/posts/分类-数据分析/分类-杂记/cluster-analysis/
  • 版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!

0 人点赞