集成学习方法
通过某种方式将多个单一模型组合起来,使用它们的“集体智慧”来解决问题。
随机森林
随机森林由n个决策树组成,模型的预测结果等于各决策树结果的某种“加权平均”
1、对于分类问题,最终结果等于在决策树预测结果中出现次数最多的类别。直观上,可以将每个决策树想象成一个人,而随机森林想象成一场投票,通过少数服从多数的原则取的最终的结果。
2、对于回归问题,最终结果等于决策树预测结果的平均值。
随机森林的建模依据是:一棵树犯错的概率比较大,但是很多树同时犯错的概率就很小了。
建立多个树的过程 现在有N个样本, M个特征 建立多个树,其实就是随机的建立单个树 单个树建立过程:
随机在N个样本当中选择一个样本,重复N次 样本可能会重复。为了让样本数相等 随机在M个特征中选出m个特征 之后建立10棵决策树,每个决策树的样本,特征大多不一样。每个树都是随机有放回的抽样(bootstrop)
随机森林的API
参考链接:https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html?highlight=randomforestclassifier#sklearn.ensemble.Rando