Kmeans、数据稀疏问题、标签不均衡

2024-05-09 16:08:45 浏览数 (2)

Kmeans

  • 随机选择k个点作为初始质心
  • 重复一下操作
    • 将每个点指派到最近的质心,形成k个簇
    • 重新计算每个簇的质心
  • 直到
    • 质心不发生变化

Kmeans使用技巧

  • 先设定较多的聚类类别
  • 聚类结束后计算类内平均距离
  • 排序后,舍弃平均距离较长的类别
  • 计算距离时可以使用欧氏距离、余弦距离或其他距离
  • 短文本聚类记得先去重,以及其他预处理

Kmeans优点

  1. 速度很快,可以支持很大量的数据
  2. 样本均匀,特征明显的情况下效果不错

Kmeans缺点

  1. 人为设定聚类数量
  2. 初始化中心影响效果,导致结果不稳定
  3. 对于个别特殊样本敏感,会大幅影响聚类中心位置
  4. 不适合多分类或样本较为离散的数据

数据稀疏问题

训练数据量小,模型在训练样本上能收敛,但预测准确率很低

解决方案:

  1. 标注更多的数据
  2. 尝试构造训练样本(数据增强)
  3. 更换模型(使用预训练模型)减少数据需求
  4. 增加规则弥补
  5. 调整阈值,用召回率换准确率
  6. 重新定义类别(减少类别)

标签不均衡

部分类别样本充裕,部分类别样本极少

解决方案:

  1. 解决数据稀疏的所有方法依然适用
  2. 过采样——复制指定类别的样本,在采样中重复
  3. 降采样——减少多样本类别的采样,随机使用部分
  4. 调整样本权重——通过损失函数权重调整来实现
  • 预测数值,属于回归问题,损失函数使用均方差
  • 分类问题使用交叉熵

0 人点赞