最新 最热

原理+代码|深入浅出Python随机森林预测实战

组合算法也叫集成学习,在金融行业或非图像识别领域,效果有时甚至比深度学习还要好。能够理解基本原理并将代码用于实际的业务案例是本文的目标,本文将详细介绍如何利用Python实现集成学习中随机森林这个经典的方法来预测...

2020-07-27
0

【机器学习基础】关于Scikit-Learn,你不一定知道的10件事

Scikit-learn是使用最广泛的Python机器学习库之一。它有一个标准化和简单的接口用来预处理数据和进行模型的训练,优化和评估。

2020-07-24
1

【机器学习基础】数学推导+纯Python实现机器学习算法26:随机森林

自从第14篇文章结束,所有的单模型基本就讲完了。而后我们进入了集成学习的系列,整整花了5篇文章的篇幅来介绍集成学习中最具代表性的Boosting框架。从AdaBoost到GBDT系列,对XGBoost、LightGBM和CatBoost作了较为详细的了...

2020-07-23
0

分别用逻辑回归和决策树实现鸢尾花数据集分类

学习了决策树和逻辑回归的理论知识,决定亲自上手尝试一下。最终导出决策树的决策过程的图片和pdf。逻辑回归部分参考的是用逻辑回归实现鸢尾花数据集分类,感谢原作者xiaoyangerr 注意:要导出为pdf先必须安装graphviz(这...

2020-07-23
0

机器学习|集成学习(简介)

接下来几周的时间,我们将会推出关于《西瓜书》读书笔记的连载文章,updating~

2020-07-21
0

实战|用决策树实现NBA获胜预测

因为疫情原因导致NBA2019-2020赛季没有进行完,所以我们使用NBA2018-2019赛季的数据进行预测,数据获取方式有下面两种:

2020-07-21
0

机器学习|LightGBM

上文中我们了解了一下XGBoost的原理,本文再来了解一下GBDT的另一个进化算法LightGBM,从原理上来说它和GBDT及XGBoost类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。...

2020-07-21
0

【CTR】DeepGBM:知识蒸馏技术在微软在线预测系统中的应用

今天学习的是微软 2019 年的工作《DeepGBM: A Deep Learning Framework Distilled by GBDT for Online Prediction Tasks》。从标题中我们可以看出,DeepGBM 是一个从 GBDT 提炼知识并用于在线预测任务的深度学习框架。...

2020-07-21
0

特征工程(上)- 特征选择

构建特征是一个很大的工程,总体来讲包括“特征选择”、“特征表达”和“特征评估”3个部分。我们也按这3个部分,并结合自己的具体实践,用3篇文章来和大家聊一下特征工程的相关问题。...

2020-07-21
0

2小时入门Spark之MLlib

最近由于一直在用Spark搞数据挖掘,花了些时间系统学习了一下Spark的MLlib机器学习库,它和sklearn有八九分相似,也是Estimator,Transformer,Pipeline那一套,各种fit,transform接口。sklearn有多好学,MLlib就有多好学,甚至MLlib...

2020-07-20
0