目录:
1,度量数据中心趋势与离散趋势的统计量?
2,刻画相异性的度量?
3,什么是高数据质量的数据?
4,规范化变换数据的方法?
5,什么是数据仓库?
6,什么是数据立方体?
7,OLAP的操作用哪些?
8,OLAP的服务器结构有哪些?
9,常用的属性选择度量有哪些?
10,评估分类器性能的度量?
通过细微的十个小问题,以点画线,画出数据相关的知识面,直观把握知识,形成一个体系。
1,度量数据中心趋势与离散趋势的统计量?
中心趋势度量:均值,中位数,中列数,众数;
离散趋势度量:极差,四分位数,方差,标准差,四分位数极差;
分布形态度量:峰度,偏度,一个标准正态分布数据偏度为0,峰度为3
2,刻画相异性的度量?
欧几里得距离(绿色),曼哈顿距离(红蓝黄),闵可斯夫基距离,上确界距离等等。
3,什么是高数据质量的数据?
准确性,完整性,一致性,时效性,可信性和可解释性。
数据预处理过程:数据清理,数据集成,数据归约。
4,规范化变换数据的方法?
最小-最大规范化:将原始数据投射到指定的空间[min,max]。可用公式表示为:
Z分数(z-score)规范化(或零均值规范化):属性的值基于A的均值(即平均值)和标准差规范化
小数定标规范化:通过移动属性A的值的小数点未知进行规范化。小数点的移动位数依赖于A的最大绝对值。
还有scaling 图表化显示。
5,什么是数据仓库?
William H. Inmon 说:“数据仓库是一个面向主题的,集成的,时变的,非易失的数据集合,支持管理者的决策过程。”
三种数据仓模型:企业仓,数据集市,虚拟仓库
6,什么是数据立方体?
数据立方体是一种多维数据模型,允许以多维对数据建模和观察。它由维和事实定义。
多维数据模型的模式:星形,雪花,事实星座。
对于N维立方体,共有2的N次方个基本方体,会产生维灾难。
完全立方体,冰山立方体,闭立方体,立方体外壳。
7,OLAP的操作用哪些?
上卷,下钻,切片和切块,转轴。其它操作:钻过,钻透;
8,OLAP的服务器结构有哪些?
关系OLPA(ROLAP)服务器,多维OLAP(MOLAP)服务器,混合OLAP(HOLAP)服务器,特殊的SQL服务器。
9,常用的属性选择度量有哪些?
属性选择度量就是分裂规则,用来确定分裂属性和分裂子集。
常见的度量方法:信息增益,增益率,基尼指数(Gini指数)
其他属性度量方法:卡方检验,C-SEP,G-统计量
10,评估分类器性能的度量?
恭喜你,看完了十个问题,也掌握了基础的解答点,更希望你能够做到问十道百,体现自己的专业知识和技术自信。