参加Kaggle竞赛往往都需要较多的步骤,对于小白同学,完成完成所有的步骤是一件非常困难的事情。
本文展示了如何敏捷式
逐步完成竞赛的过程,具体以Tabular Playground Series比赛为例。
https://www.kaggle.com/c/tabular-playground-series-jan-2021
循序渐进
继续练习你掌握的知识,不断尝试新事物。
迭代1
- 阅读比赛信息
阅读说明、评价、时间线、奖品和规则,可能有些比赛可能有更多的细节,所以养成阅读所有提供的信息和标签的习惯。
- 验证数据文件格式
阅读数据描述并查看数据文件:train、test、sample_submission。检查所有字段与描述是否匹配。
- 设置您的环境
将数据集下载到您的本地机器或使用免费的代码资源,如Kaggle Notebooks和Google Colab。
- 探索数据
探索数据。了解数据。在阅读其他人的分享之前,自己探索数据通常是个好主意。
- 阅读比赛论坛
比赛论坛有很多有用的信息和有趣的讨论,你应该关注论坛,或者不时检查新帖子和评论。
6. 阅读比赛Notebook
阅读公开的EDA和baseline Notebook,这是开始自己的代码的好地方,也可以跟随开源的进度。
- 建立一个基线模型
拥有一个非常基本的端到端模型,不一定需要是机器学习模型。
- 提交到排行榜
使用模型对测试数据进行预测,并将其提交给 Kaggle排行榜。
- 提出问题
根据上述操作,你或许有一些疑问,可以尝试在比赛论坛提出或者记录下自己的疑问。
迭代2
- 验证想法
验证想尝试想法,验证方法次数越多,越接近正确答案。
- 数据清洗
对原始数据集处理为最干净的形式,不同的数据集需要不同类型的预处理和转换,有时需要不同的模型。
- 特征工程
新功能可以显着提高模型性能。不同类型的特征可能适用于不同的模型。去野外。努力尝试,尝试尽可能多的功能和想法。
- 错误分析
确定模型能够很好预测和失败原因,考虑结果的原因以及你可以做些什么。
迭代3
- 改进可视化
增加对数据的可视化和演示,研究高票数的 EDA Notebook并学习如何构建出色的可视化。
- 发布你的EDA Notebook
使Kaggle成为如此出色平台的原因是Kagglers和社区,你也可以做一份贡献。
- 分享见解
在论坛发帖,或者写一些评论。你分享的越多,你学到的就越多,也会有更多的人帮助你。
迭代4
- 探索模型
这是您试验和构建大量模型以找出最有效的模型的机会,阅读并理解不同模型的内部工作原理很重要。
- 集成并组合模型
使用blend或者stacking将多个模型组合起来,并为每个基础模型搜索得到各自的特征空间和超参数。
最后:快跑起来
Reading without coding is bad.
Coding without understanding is bad.
Kaggle = 学 做,不断循环。