尽管神经网络在图像识别、自然语言等很多领域大放异彩,但回到表格数据的数据挖掘任务中,树模型才是低调王者,如论文《Tabular Data: Deep Learning is Not All You Need》提及的:...
本文将系统全面的介绍自动机器学习的其中一个常用框架: Auto-Sklearn,介绍安装及使用,分类和回归小案例,以及一些用户手册的介绍。快来和小猴子一起研习吧!...
本篇文章通过简明快要的方式来介绍scikit-learn的使用,更多详细内容请参考官网:
算法:F检验和互信息是前者仅仅反映线性依赖关系,后者反映变量之间的任何类型(包括线性和非线性关系)的相关性,和F检验相似,既可以做回归,也可以做分类,并且包含两个类feature_selection.mutual_info_classif(互信息分类)和fea...
链接:https://scikit-learn.org/stable/modules/feature_selection.html#feature-selection
课程完整代码:https://github.com/fengdu78/WZU-machine-learning-course
时间序列异常值检测旨在识别数据中意外或罕见的实例。作为数据分析最重要的任务之一,异常值检测在时间序列数据上有多种应用,例如欺诈检测、故障检测和网络安全攻击检测。例如,雅虎 [1] 和微软 [2] 已经建立了自己的时间...
对于任何科学测量,误差的准确计算几乎与数字本身的准确报告一样重要,甚至更重要。例如,假设我正在使用一些天体物理观测来估计哈勃常数,即宇宙膨胀率的局部测量值。我知道目前的文献显示,它是大约71 (km/s)/Mpc,我用我的方...
摘要:本篇主要介绍基于最近邻算法的广告素材图片聚类实践。首先介绍了项目背景,为了提升品控需要对广告素材图片进行聚类操作;然后重点介绍了我们线上广告素材聚类方案实践,基于基于ResNet-18获取图片特征向量表示,然后基...
作者:Eryk Lewinson翻译:张睿毅校对:张睿毅本文约4200字,建议阅读10分钟本文我们主要使用非常知名的Python包,以及依赖于一个相对不为人知的scikit-lego包。 标签:数据帧, 精选, 机器学习, Python, 技术演练 设置和数据 在本...