最新 最热

计算机前沿技术介绍

区块链技术不依赖额外的第三方管理机构或硬件设 施,没有中心管制,除了自成一体的区块链本身,通 过分布式核算和存储,各个节点实现了信息自我验证、传递和管理。去中心化是区块链最突出最本质的...

2022-11-03
0

特征工程-特征提取(one-hot、TF-IDF)

特征工程是机器学习中的第一步,会直接影响机器学习的结果。可以说数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。特征工程包括特征提取、特征预处理和特征降维等。...

2022-11-02
1

R语言文本挖掘NASA数据网络分析,tf-idf和主题建模|附代码数据

NASA托管和/或维护了超过32,000个数据集; 这些数据集涵盖了从地球科学到航空航天工程到NASA本身管理的主题。我们可以使用这些数据集的元数据来理解它们之间的联系(点击文末“阅读原文”获取完整代码数据)。...

2022-11-01
0

《如何打一场数据挖掘赛事》进阶版

经过上一篇的入门学习,大家已经熟悉如何去打一场比赛,并能训练经典的机器学习算法模型,去解决实际的问题。如果你还不了解,可以先学习《如何打一个数据挖掘比赛》 入门版,然后再进行本节的学习。...

2022-10-31
0

《如何打一场数据挖掘赛事》入门版

这是一份简易的竞赛教程,我们的目的是帮助同学们迈出 AI 训练大师之路的第一步。数据挖掘中会有很多需要学习的地方,建议入门的同学可以暂时不用着急去弄懂各个代码的原理,先跑通代码,然后看代码中的涉及的知识点去查询相...

2022-10-31
1

北航学长的NLP赛事教程!

在人工智能领域的学习中,研读有关文献是非常重要的学习途径,而如何在汗牛充栋的论文库中,高效快速的检索到相关重要文献,就成为知识学习首先要解决的难点。...

2022-10-31
0

我写了一份初学者的学习实践教程!

上周在Datawhale分享了一篇关于数据挖掘赛事的baseline方案,有老师把它作为学习资料给学生实践学习后,有挺多同学反应学习实践中仍然有困难:

2022-10-31
1

天池算法大赛项目:基于大规模日志的故障诊断亚军方案!

第三届阿里云磐久智维算法大赛:本次比赛要求选手基于故障工单与系统日志数据构建多分类模型,要求能够快速高效的定位出故障类型。

2022-10-31
1

R语言用贝叶斯线性回归、贝叶斯模型平均 (BMA)来预测工人工资|附代码数据

在本文中,贝叶斯模型提供了变量选择技术,确保变量选择的可靠性。对社会经济因素如何影响收入和工资的研究为应用这些技术提供了充分的机会,同时也为从性别歧视到高等教育的好处等主题提供了洞察力(点击文末“阅读原文”获...

2022-10-31
1

乳腺癌数据集系列R包:Fletcher2013

芯片数据集是一片广袤的海洋,大多数时候我们做数据挖掘,相当于大海捞针。于是一些学者合并同类项,将相同芯片平台或是类似设计的数据集进行了包装,开发成为new package,我们可以在这样的包里直接找到想要的数据集,分析的步...

2022-10-31
0