对一些因变量进行dummy variable转换。对大数值变量如引擎容量,已行驶的公里数进行log transformation。
所以综上所诉,用线性回归来用于分类问题通常不是一个好主意,并且线性回归的值会远远偏离0或1,这显示不太合理。
机器学习之路 系列 (一) 作者: 计算机魔术师 版本: 1.0 ( 2022.2.25) 注释:文章会不定时更新补充
样本的特征数称为维数(dimensionality),当维数非常大时,也就是现在所说的维数灾难。 维数灾难具体表现在:在高维情形下,数据样本将变得十分稀疏,因为此时要满足训练样本为“密采样”的总体样本数目是一个触不可及的天文数字,...
Clustering (聚类)是常见的unsupervised learning (无监督学习)方法,简单地说就是把相似的数据样本分到一组(簇),聚类的过程,我们并不清楚某一类是什么(通常无标签信息),需要实现的目标只是把相似的样本聚到一起,即只是利用样...
XGBoost是Extreme Gradient Boosting的缩写,是一个非常流行的开源机器学习库,以其高性能和出色的准确性而闻名。它已广泛应用于各个领域,包括数据科学、金融和在线广告。...
最近开始看一本之前出版社老师赠送的书《图神经网络-基础、前言与应用》,开始系统地了解下图神经网络。
shap(SHapley Additive exPlanations)是一个用于解释机器学习模型输出的模型解释包。
基于Python Outlier Detection库进行异常值处理(Kmeans对异常值敏感)。
附注:除了以上两大类模型,还有半监督学习和强化学习等其他类型的机器学习模型。半监督学习是指在有部分标签数据的情况下,结合监督学习和无监督学习的方法进行模型训练。强化学习是指通过让计算机自动与环境交互,学习出如...