我自从2015年担任算法组leader,作为面试官面试了不少同学。前前后后面试了超过200名同学,其中有不少入职的同学后来发展都不错,也坚定了自己对于选人标准的自信心。...
决策树是一个非常常见并且优秀的机器学习算法,它易于理解、可解释性强,其可作为分类算法,也可用于回归模型。
本文以一个新的数据集(隐形眼镜数据集)为基础实现构建决策树、决策树的保存与加载、利用决策树分类、决策树的可视化,前文的知识不在过多概述,着重介绍这四个方面。...
决策树是监督学习算法之一,并且是一种基本的分类与回归方法;决策树也分为回归树和分类树,本文讨论的是分类树。如果了解或者学过数据结构,肯定对"树"这个概念是不陌生的,在此基础上学习掌握决策树也会更加容易,下面通过一个...
几天前一同学咨询了一个问题,如何通过Aggregated boosted tree(ABT)评估变量的相对重要性。周末抽空了解了一下,顺便进行了简单的整理在这里作个分享。...
有监督学习基于一组包含预测变量和输出变量的样本单元。将全部数据分为一个训练数据集和一个验证数据集,其中训练集用于建立预测模型,验证集用于测试模型的准确性。...
Boosting是集成学习的一种基分类器(弱分类器)生成方式,核心思想是通过迭代生成了一系列的学习器,给误差率低的学习器高权重,给误差率高的学习器低权重,结合弱学习器和对应的权重,生成强学习器。...
在实际研究中我们很多时候会碰到小数据集,特征数量远远大于样本量,比如我们希望预测患者对某种新疗法的反应。每个患者都包含了许多电子病历中的特征,但由于参加临床试验的患者数量有限,弄清楚哪些预测因素与对治疗真正相...
这是一个全新的专题,我将为大家介绍一些经典的机器学习算法和动手实现一下,那么这个专题的特殊点是什么呢?首先是对于算法原理的讲解,我会以大白话的方式直接从案例入手来大致了解这个算法的原理, 并给出算法的实现步骤。...
跟Python中的pandas的用法很像,相信用过Pandas的朋友上手应该无压力