Kmeans
- 随机选择k个点作为初始质心
- 重复一下操作
- 将每个点指派到最近的质心,形成k个簇
- 重新计算每个簇的质心
- 直到
- 质心不发生变化
Kmeans使用技巧
- 先设定较多的聚类类别
- 聚类结束后计算类内平均距离
- 排序后,舍弃平均距离较长的类别
- 计算距离时可以使用欧氏距离、余弦距离或其他距离
- 短文本聚类记得先去重,以及其他预处理
Kmeans优点
- 速度很快,可以支持很大量的数据
- 样本均匀,特征明显的情况下效果不错
Kmeans缺点
- 人为设定聚类数量
- 初始化中心影响效果,导致结果不稳定
- 对于个别特殊样本敏感,会大幅影响聚类中心位置
- 不适合多分类或样本较为离散的数据
数据稀疏问题
训练数据量小,模型在训练样本上能收敛,但预测准确率很低
解决方案:
- 标注更多的数据
- 尝试构造训练样本(数据增强)
- 更换模型(使用预训练模型)减少数据需求
- 增加规则弥补
- 调整阈值,用召回率换准确率
- 重新定义类别(减少类别)
标签不均衡
部分类别样本充裕,部分类别样本极少
解决方案:
- 解决数据稀疏的所有方法依然适用
- 过采样——复制指定类别的样本,在采样中重复
- 降采样——减少多样本类别的采样,随机使用部分
- 调整样本权重——通过损失函数权重调整来实现
- 预测数值,属于回归问题,损失函数使用均方差
- 分类问题使用交叉熵