异常检测 anomaly detection

2021-08-18 15:00:21 浏览数 (1)

异常检测的应用

  • 欺诈检测
  • 工业质量监测
  • 计算机集群监测
  • 等等

建立一个异常检测系统的一般步骤

  • 将带有label的数据集划分为训练集、验证集和测试集 注意将异常数据大致平均分配到每个集合中 通常情况下,验证集和测试集的数据都应该是互不相同的,即两个集合没有交集
  • 使用训练集训练算法P(x) 为了避免正负样本分布不均,使用F1-score来评价算法性能
  • 使用验证集来选择阈值ϵ

异常检测和监督学习的区别

异常检测
  • 正例(异常样本)通常都非常少,通常是10这个数量级。
  • 反例(正常样本)数量非常多。
  • 异常的种类非常多,无法通过特征一一确定。未来的异常种类不能预见。
监督学习
  • 正例和反例都非常多,并且分布差异不大
  • 可以用特征来确定分类

数据预处理

当特征的样本分布为正态分布时,可以直接将样本fit到算法中

当数据为长尾分布时

使用

来将数据转换为正态分布

0 人点赞