《机器学习实战》 - K近邻算法（KNN）

2022-04-01 13:52:46 浏览数 (2)

简介

K 近邻算法（K-Nearest Neighbor, KNN）测量不同特征值间距离进行分类优点：

精度高
对异常值不敏感
无数据输入假定
无需训练

缺点：

计算复杂度高
空间复杂度高
使用数据范围（1. 数值型 2.标称型）

流程：

计算未知电影与各样本距离，
选出前k个最近
k个中服从多数，k一般取奇数，否则可能存在票数相同，无法判定类别

Q：如何测试分类器？ A：常用评估方法：错误率

准备数据：归一化数值

Q：为什么进行归一化？ A：特征值间量纲差异大，导致最终结果易受某些仅仅是量纲大的数影响取值范围处理为 [0, 1] 或 [-1, 1] 特征值转到 [0, 1] 公式：newValue = (oldValue-min)/(max-min) 举例：

image-20201206111927160数字差值最大的属性对计算结果的影响最大每年获取的飞行常客里程数对于计算结果的影响将远远大于其他两个特征——玩视频游戏的和每周消费冰淇淋公升数——的影响仅仅是因为量纲，飞行常客里程数远大于其他特征值海伦认为这三种特征同等重要，飞行常客里程数不应该如此严重影响结果

参考

《机器学习实战》[美] Peter Harrington
本文作者： yiyun
本文链接： https://moeci.com/posts/分类-读书笔记/KNN/
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！

image knn max min

0 人点赞