1、探索性数据分析
2、
3、svg
4、
5、csv压缩zip、tar直接读取
6、
7、Log10分布更均匀
8、数据清理
9、数据变换:数值的标准化、图片像素、文本的词向量
10、特征工程:敏感的发现高相关性的X因素维度。
11、时间:季节、周末、节假日、特殊节日、不同小时。。。时间的隐藏因素
12、数据科学家的日常
13、半监督学习:用小样本的学习去跑一遍大数据,把确定对错的先挑出来,剩下存疑的人去复核。
14、数据的版本
15、集成学习
16、
17、训练n个模型,回归:平均,分类:投票。
18、随机森林
19、Bagging
20、Boosting
21、
22、Stacking
23、调参
24、超参数:网格搜索、随机搜索、贝叶斯优化
25、看不懂了