时间序列模型在我们日常工作中应用的场景还是会很多的,比如我们去预测未来的销售单量、预测股票价格、预测期货走势、预测酒店入住等等,这也是我们必须要掌握时序建模的原因。而关于时间戳以及时序值的特征衍生,在建模过...
知乎|https://www.zhihu.com/people/xu-xiu-jian-33
目前看到的大多数特征工程方法都是针对数值特征的。本文介绍的Target Encoding是用于类别特征的。这是一种将类别编码为数字的方法,就像One-hot或Label-encoding一样,但和这种两种方法不同的地方在于target encoding还...
你好,我是 zhenguo接下来逐步分析常用的数据分析小技巧小技巧1:如何使用map对某些列做特征工程?先生成数据:d = {"gender":["male", "female", "male","female"],"color":["red", "green", "blue","green"],"...
文本分类是自然语言处理中最基本的任务。由于深度学习的空前成功,过去十年中该领域的研究激增。已有的文献提出了许多方法,数据集和评估指标,从而需要对这些内容进行全面的总结。本文回顾1961年至2020年的文本分类方法,重...
本文结合笔者在7次Kaggle/KDD Cup中的冠军经验,围绕多领域建模优化、AutoML技术框架以及面对新问题如何分析建模等三个方面进行了介绍。希望能够帮更多同学了解比赛中通用的高效建模方法与问题理解思路。...
数据预处理后,我们生成了大量的新变量(比如独热编码生成了大量仅包含0或1的变量)。但实际上,部分新生成的变量可能是多余:一方面它们本身不一定包含有用的信息,故无法提高模型性能;另一方面过这些多余变量在构建模型时会消耗...
https://github.com/YC-Coder-Chen/feature-engineering-handbook