《python数据分析与数据化运营》笔记2021.9.16

2022-09-22 08:27:26 浏览数 (1)

1、如何选择聚类算法?

P165,

100万条内选K聚类数据量大时间久,数据高维选择降维、子空间聚类(谱聚类),Mini Batch KMeans,分类准确选谱聚类。

2、聚类和分类的区别?

P185

有无监督、探索还是预测应用、与因果解读不一样(男女半男女)。

3、如何选择分类算法?

防止决策树过拟合,SVM的L2正则最小,随机森林、adaboost等

准确性高-向量机、随机森林、神经网络

可解释性-决策树

4、如何选择回归?

P174

多重共线性-岭回归

噪音多-主成分回归

高维度-正则化回归(逻辑回归)

交叉验证

解释性-线性、指数、对数、二项式、多项式比向量回归好

组合,加权、均值

5、什么情况下不能用回归分析?

是否有了新因变量,自变量在范围内

6、回归分析的判断指标?

回归系数X,判定系数R2(因果关系),相关性系数R

7、为什么要用时间序列?

时间中的隐形规律

8、什么情况下不适用时间序列预测?

不适合商业环境复杂的企业,数据的平稳性、白噪声检验

9、数据分析的流程是什么?

大流程、小流程、循环流程、迭代流程

10、如何处理异常值、重复值、空值?

P77,

1丢弃不超过10%,

2补全统计法模型法专家法随机法,

3真值转换法,

4不处理。不要轻易抛弃异常数据。

统计(分布)、距离K均值、密度LOF、偏移、时间序列。

离群点和新奇点检测

11、降维算法有哪些?

主成分分析PCA、因子分析FA、线性判别分析LDA、独立成分分析ICA、局部线性嵌入LIE、核主成分析KernelPCA

12、大数据还有必要抽样和降维吗?

受限于算力,在算力不足情况下要,高维度降到线性。抓重点,可解释性。

数据的抽样、数据的降维(X太多)(专家法、相关性法、准确性法、机器学习权重)

13、数据分布不均衡的影响?

机器学习样本不够,学习有偏差。10倍要警惕、20倍要处理。

过抽样(容易过拟合)、欠抽样(容易数据信息丢失)

14、如何检查异常检测?

统计(分布)、距离K均值、密度LOF、偏移、时间序列,离群点和新奇点检测

15、如何验证关联分析?

支持度、置信度、提升度

16、如何避免数据源冲突?

P106

0 人点赞