拉通对齐 梳理Kaggle竞赛组合拳!

2021-09-08 15:24:16 浏览数 (1)

参加Kaggle竞赛往往都需要较多的步骤,对于小白同学,完成完成所有的步骤是一件非常困难的事情。

本文展示了如何敏捷式逐步完成竞赛的过程,具体以Tabular Playground Series比赛为例。

https://www.kaggle.com/c/tabular-playground-series-jan-2021

循序渐进

继续练习你掌握的知识,不断尝试新事物。

迭代1

  1. 阅读比赛信息

阅读说明、评价、时间线、奖品和规则,可能有些比赛可能有更多的细节,所以养成阅读所有提供的信息和标签的习惯。

  1. 验证数据文件格式

阅读数据描述并查看数据文件:train、test、sample_submission。检查所有字段与描述是否匹配。

  1. 设置您的环境

将数据集下载到您的本地机器或使用免费的代码资源,如Kaggle Notebooks和Google Colab。

  1. 探索数据

探索数据。了解数据。在阅读其他人的分享之前,自己探索数据通常是个好主意。

  1. 阅读比赛论坛

比赛论坛有很多有用的信息和有趣的讨论,你应该关注论坛,或者不时检查新帖子和评论。

6. 阅读比赛Notebook

阅读公开的EDA和baseline Notebook,这是开始自己的代码的好地方,也可以跟随开源的进度。

  1. 建立一个基线模型

拥有一个非常基本的端到端模型,不一定需要是机器学习模型。

  1. 提交到排行榜

使用模型对测试数据进行预测,并将其提交给 Kaggle排行榜。

  1. 提出问题

根据上述操作,你或许有一些疑问,可以尝试在比赛论坛提出或者记录下自己的疑问。

迭代2

  1. 验证想法

验证想尝试想法,验证方法次数越多,越接近正确答案。

  1. 数据清洗

对原始数据集处理为最干净的形式,不同的数据集需要不同类型的预处理和转换,有时需要不同的模型。

  1. 特征工程

新功能可以显着提高模型性能。不同类型的特征可能适用于不同的模型。去野外。努力尝试,尝试尽可能多的功能和想法。

  1. 错误分析

确定模型能够很好预测和失败原因,考虑结果的原因以及你可以做些什么。

迭代3

  1. 改进可视化

增加对数据的可视化和演示,研究高票数的 EDA Notebook并学习如何构建出色的可视化。

  1. 发布你的EDA Notebook

使Kaggle成为如此出色平台的原因是Kagglers和社区,你也可以做一份贡献。

  1. 分享见解

在论坛发帖,或者写一些评论。你分享的越多,你学到的就越多,也会有更多的人帮助你。

迭代4

  1. 探索模型

这是您试验和构建大量模型以找出最有效的模型的机会,阅读并理解不同模型的内部工作原理很重要。

  1. 集成并组合模型

使用blend或者stacking将多个模型组合起来,并为每个基础模型搜索得到各自的特征空间和超参数。

最后:快跑起来

Reading without coding is bad.

Coding without understanding is bad.

Kaggle = 学 做,不断循环。

0 人点赞