阅读(4952) (0)

AI人工智能 分类失衡问题

2020-09-23 15:03:01 更新

分类不平衡是属于一个类别的观察数量显着低于属于其他类别的观测数量的场景。 例如,在我们需要识别罕见疾病,银行欺诈性交易等情况下,这个问题非常突出。

不平衡分类的例子 让我们考虑一个欺诈检测数据集的例子来理解不平衡分类的概念 -

Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%

解决 平衡类的行为,解决不平衡的类问题。 平衡类的主要目标是增加少数类的频率或减少多数类的频率。 以下是解决失衡类问题的方法 -

重采样 重新采样是用于重建样本数据集的一系列方法 - 包括训练集和测试集。 重新抽样是为了提高模型的准确性。 以下是一些重新抽样技术 -

  • 随机抽样 - 这项技术旨在通过随机排除大多数类别的例子来平衡课堂分布。 这样做直到大多数和少数群体的实例得到平衡。

Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%

在这种情况下,我们将 10% 的样本从非欺诈实例中取而代之,然后将它们与欺诈实例相结合 - 随机抽样后的非欺诈性观察:4950 的 10% = 495 将他们与欺诈观察结合后的总观测值: 50 + 495 = 545

因此,现在,低采样后新数据集的事件率为: 9%

这种技术的主要优点是可以减少运行时间并改善存储。 但另一方面,它可以丢弃有用的信息,同时减少训练数据样本的数量。

  • 随机抽样 - 这种技术旨在通过复制少数类中的实例数量来平衡类分布。

Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%

如果复制 50 次欺诈性观察 30 次,那么在复制少数类别观察值后欺诈观察值将为 1500。然后,在过采样后新数据中的总观察值将为:4950 + 1500 = 6450。因此,新数据集的事件率是:1500/6450 = 23%

这种方法的主要优点是不会丢失有用的信息。 但另一方面,由于它复制了少数族群的事件,因此它有更多的过度机会。