异常检测的应用
- 欺诈检测
- 工业质量监测
- 计算机集群监测
- 等等
建立一个异常检测系统的一般步骤
- 将带有label的数据集划分为训练集、验证集和测试集 注意将异常数据大致平均分配到每个集合中 通常情况下,验证集和测试集的数据都应该是互不相同的,即两个集合没有交集
- 使用训练集训练算法P(x) 为了避免正负样本分布不均,使用F1-score来评价算法性能
- 使用验证集来选择阈值ϵ
异常检测和监督学习的区别
异常检测
- 正例(异常样本)通常都非常少,通常是10这个数量级。
- 反例(正常样本)数量非常多。
- 异常的种类非常多,无法通过特征一一确定。未来的异常种类不能预见。
监督学习
- 正例和反例都非常多,并且分布差异不大
- 可以用特征来确定分类
数据预处理
当特征的样本分布为正态分布时,可以直接将样本fit到算法中
当数据为长尾分布时
使用
来将数据转换为正态分布