1、如何选择聚类算法?
P165,
100万条内选K聚类数据量大时间久,数据高维选择降维、子空间聚类(谱聚类),Mini Batch KMeans,分类准确选谱聚类。
2、聚类和分类的区别?
P185
有无监督、探索还是预测应用、与因果解读不一样(男女半男女)。
3、如何选择分类算法?
防止决策树过拟合,SVM的L2正则最小,随机森林、adaboost等
准确性高-向量机、随机森林、神经网络
可解释性-决策树
4、如何选择回归?
P174
多重共线性-岭回归
噪音多-主成分回归
高维度-正则化回归(逻辑回归)
交叉验证
解释性-线性、指数、对数、二项式、多项式比向量回归好
组合,加权、均值
5、什么情况下不能用回归分析?
是否有了新因变量,自变量在范围内
6、回归分析的判断指标?
回归系数X,判定系数R2(因果关系),相关性系数R
7、为什么要用时间序列?
时间中的隐形规律
8、什么情况下不适用时间序列预测?
不适合商业环境复杂的企业,数据的平稳性、白噪声检验
9、数据分析的流程是什么?
大流程、小流程、循环流程、迭代流程
10、如何处理异常值、重复值、空值?
P77,
1丢弃不超过10%,
2补全统计法模型法专家法随机法,
3真值转换法,
4不处理。不要轻易抛弃异常数据。
统计(分布)、距离K均值、密度LOF、偏移、时间序列。
离群点和新奇点检测
11、降维算法有哪些?
主成分分析PCA、因子分析FA、线性判别分析LDA、独立成分分析ICA、局部线性嵌入LIE、核主成分析KernelPCA
12、大数据还有必要抽样和降维吗?
受限于算力,在算力不足情况下要,高维度降到线性。抓重点,可解释性。
数据的抽样、数据的降维(X太多)(专家法、相关性法、准确性法、机器学习权重)
13、数据分布不均衡的影响?
机器学习样本不够,学习有偏差。10倍要警惕、20倍要处理。
过抽样(容易过拟合)、欠抽样(容易数据信息丢失)
14、如何检查异常检测?
统计(分布)、距离K均值、密度LOF、偏移、时间序列,离群点和新奇点检测
15、如何验证关联分析?
支持度、置信度、提升度
16、如何避免数据源冲突?
P106