最新 最热

【Spark Mllib】分类模型——各分类模型使用

这个数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂存在,很快就不流行了)还是长久(长时间流行)。

2019-02-13
0

《机器学习实战(Scala实现)》(三)——决策树

信息熵p(x):分类结果x的概率,即分类结果为x的数据量/总数据量信息:l(x) = -log2(p(x))信息熵:信息的期望值 p(x1)l(x1) + p(x2)l(x2) + …… ,可以评价一组不同类别的划分结果的混沌度。def calcShannonEnt(dataset): ...

2019-02-13
0

《机器学习技法》学习笔记11——GBDT

http://blog.csdn.net/u011239443/article/details/77435463

2019-02-13
0

机器学习的应用——关于正确应用机器学习

前阵子看到一篇文章,学习了一段时间的机器学习算法后,再回头看机器学习问题,发现要想利用机器学习去很好的求解一个问题,其实并不是一件容易办到的事情,尤其是能够对整个模型的解释方面,要想能够对模型很好的解释,那么难度就...

2019-02-13
1

# LightGBM大战XGBoost,谁将夺得桂冠?

如果你是一个机器学习社区的活跃成员,你一定知道 提升机器(Boosting Machine)以及它们的能力。提升机器从AdaBoost发展到目前最流行的XGBoost。XGBoost实际上已经成为赢得在Kaggle比赛中公认的算法。这很简单,因为他极其...

2019-01-31
0

大话机器学习之决策树(DS)

这是一个医疗检测的数据,前面六个是指标,具体是什么其实没有意义,说的好像化验单上的那些医学术语你都知道似得。最后一个就是结果。我们就是要构建一颗决策树,根据前面六个指标,预测最后结果是消极还是积极。当然,码代码之...

2019-01-29
0

数据科学相关的一些概念及适合初学者的框架

最近邻法是最简单的预测模型之一,它没有多少数学上的假设,也不要求任何复杂的处 理,它所要求的仅仅是:

2019-01-26
1

GBDT分解形式理解,整理中2018-5-10

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(ge...

2019-01-25
0

随机森林(Random Forest)  参数解读

随机森林(Random Forest)基本原理参考:https://blog.csdn.net/hhtnan/article/details/54580994

2019-01-25
0

数学建模过程中的特征选择:scikit-learn--Feature selection(特征选择)

sklearn.feature_selection模块的作用是feature selection,而不是feature extraction。

2019-01-25
1