最新 最热

时间序列建模的时间戳与时序特征衍生思路

时间序列模型在我们日常工作中应用的场景还是会很多的,比如我们去预测未来的销售单量、预测股票价格、预测期货走势、预测酒店入住等等,这也是我们必须要掌握时序建模的原因。而关于时间戳以及时序值的特征衍生,在建模过...

2022-02-25
0

特征工程在实际业务中的应用!

知乎|https://www.zhihu.com/people/xu-xiu-jian-33

2022-02-17
0

别再只会用Onehot了!Kaggle Master的上分神技

目前看到的大多数特征工程方法都是针对数值特征的。本文介绍的Target Encoding是用于类别特征的。这是一种将类别编码为数字的方法,就像One-hot或Label-encoding一样,但和这种两种方法不同的地方在于target encoding还...

2022-02-11
0

数据分析小技巧1:使用map对列做特征工程

你好,我是 zhenguo接下来逐步分析常用的数据分析小技巧小技巧1:如何使用map对某些列做特征工程?先生成数据:d = {"gender":["male", "female", "male","female"],"color":["red", "green", "blue","green"],"...

2022-01-26
0

2021最新文本综述:从浅层到深度学习(附PDF下载)

文本分类是自然语言处理中最基本的任务。由于深度学习的空前成功,过去十年中该领域的研究激增。已有的文献提出了许多方法,数据集和评估指标,从而需要对这些内容进行全面的总结。本文回顾1961年至2020年的文本分类方法,重...

2022-01-25
0

7次KDD Cup&Kaggle冠军的经验分享:从多领域优化到AutoML框架

本文结合笔者在7次Kaggle/KDD Cup中的冠军经验,围绕多领域建模优化、AutoML技术框架以及面对新问题如何分析建模等三个方面进行了介绍。希望能够帮更多同学了解比赛中通用的高效建模方法与问题理解思路。...

2022-01-25
0

专栏 | 基于 Jupyter 的特征工程手册:特征选择(三)

数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗...

2022-01-20
0

专栏 | 基于 Jupyter 的特征工程手册:特征选择(二)

数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗...

2022-01-14
0

专栏 | 基于 Jupyter 的特征工程手册:特征选择(一)

数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗...

2022-01-14
0

专栏 | 基于 Jupyter 的特征工程手册:数据预处理(三)

https://github.com/YC-Coder-Chen/feature-engineering-handbook

2022-01-14
0