最新 最热

【特征工程】不容错过的 5 种特征选择的方法!

我们知道模型的性能会随着使用特征数量的增加而增加。但是,当超过峰值时,模型性能将会下降。这就是为什么我们只需要选择能够有效预测的特征的原因。...

2021-04-16
1

spectral-cluster聚类算法详解

spectral clustering,称之为谱聚类算法,和近邻传播AP算法一样,也是基于图论的算法,都是将样本点两两相连,构成图这一数据结构,不同的是,谱聚类是通过切图的方式来划分不同的cluster, 其思想是使得子cluster内部边的权重之和...

2021-04-14
1

Affinity Propagation聚类算法详解

Affinity Propagation简称AP, 称之为近邻传播算法, 是一种基于图论的聚类算法。将所有样本点看做是一个网络中的节点,图示如下

2021-04-14
1

Python快速构建神经网络

机器学习一直是Python的一大热门方向,其中由神经网络算法衍生出来的深度学习在很多方面大放光彩。那神经网络到底是个个什么东西呢?

2021-04-13
1

Apache Hudi与机器学习特征存储

如果在训练和推理系统中特征工程代码不相同,则存在代码不一致的风险,因此,预测可能不可靠,因为特征可能不相同。一种解决方案是让特征工程作业将特征据写入在线和离线数据库。训练和推理应用程序在做出预测时都需要读取特...

2021-04-13
1

机器学习之聚类算法Mean Shift

在K-Means算法中,最终的聚类效果受初始的聚类中心的影响,K-Means++算法的提出,为选择较好的初始聚类中心提供了依据,但是算法中,聚类的类别个数k仍需事先制定,对于类别个数事先未知的数据集,K-Means和K-Means++将很难对其精...

2021-03-12
1

如何提速机器学习模型训练

注: 本文中有一些超链接,在微信中不能打开,可以转到我的博客,地址:https://qiwsir.github.io/2021/02/16/speed-up-sklearn/,或者点击文末的“原文链接”查看。...

2021-03-11
1

结合Sklearn的网格和随机搜索进行自动超参数调优

什么是超参数?今天,隐藏着数学世界的算法只需要几行代码就可以训练出来。它们的成功首先取决于训练的数据,然后取决于用户使用的超参数。这些超参数是什么?超参数是用户定义的值,如kNN中的k和Ridge...

2021-03-10
1

机器学习作业1-线性回归

单变量和多变量线性回归:给出一组数据数据,用线性回归方法拟合函数。预测开一家餐馆的盈利,预测房价。涉及的内容不少,连学python到全部理解用了两天时间。...

2021-03-04
1

python-for-data-重温经典

应该是第三次看《利用Python进行数据分析》这本书,经典就是经典;从内容的丰富性,实际的可操作性来看,如果想从事数据分析行业,特别是利用Python,此书真的是必读书籍。...

2021-03-01
1