章节N
核心点x
总结C
1 数据分析引言:分解数据
协助例子:
化妆品
I 核心点
- 确定 - 拆解 - 评估 - 决策
确定:确定问题。问一切有歧义、不明确的问题,各种细节,确定用户要什么。将自己当作侦探,对用户的要求逐字逐句进行追问,帮助用户确定TA自己要什么。世上没有傻问题,不问问题才是傻。
拆解:对确定的问题拆解为各种细问题,以便各个击破。将数据拆解为各个小数据,协助各个击破。按照事实和假设,确定自己的心智模型,针对问题进行数据分析,找到蛛丝马迹。可见怎么拆解问题和数据,是核心内容。
评估:通过拆解,其实已经可以得到一些解决方案,针对方案进对比,确定最终的方案。
决策:通过评估获得可行的方案,需要提交这个方案给到决策方。
决策方:客户。
- 心智模型
对外界的假设和自己确定的观点就是你的心智模型。如果与事实不符合,一定要及时止损,即及时承认自己的认知错误。
心智模型的改变,需要详细记录改变的根据,让客户详细的浏览你的思考过程。
II 总结
- 数据分析的通用流程:确定 - 拆解 - 评估 - 决策。
- 心智模型的改变根据是说服客户的一个手段。
2 实验:检验你的理论
协助例子:
咖啡价格
I 核心点
- 找到最直观的影响数据波动的因素。
- 比较是破解数据的法宝
当怀疑因果关系的走向时,则进行反向思考。(2010年出版的书,即提到了降价会影响到品牌价值。)
- 控制变量法
避免混杂其他因素
II 总结
- 找到直接影响数据波动的因素,进行比较
- 控制实验变量
3 最优化:寻找最大值
协助例子:
橡皮鸭与橡皮鱼
I 核心点
- 约束条件
决策过程中,无法逾越的事情
- 决策变量
可以控制的事情
- 目标函数
f(x)=决策变量&约束条件
- 模型只是描述了你规定的情况
肯定简化了实际情况,导致模型无用。要根据不断变化的实际情况,修改模型
II 总结
- 求最值的过程中,需要创建一个合适的模型,并结合不断变化的实际情况进行定论
4 数据图形化:图形让你更精明
协助例子:
衣服电商网页
I 核心点
- 在庞大的数据中提取有用的数据
- 使用散点图,观察自变量和因变量之间的因果关系
- 多元图形
对三个以上的变量进行比较,尽量让图形多元化
II 总结
- 图形化能明确体现数据之间的关联关系,而表格只是一坨。
- 炫酷的设计,不如直接展示数据。数据分析需要的是数据展示,你是数据分析师,不是UI设计师。让数据变美观,不是你该考虑的问题。
- 数据太多,则集中注意目标相关的数据。
- 散点图是探索性数据分析的好工具,用于发现因果关系。
5 假设检验:假设并非如此(伪证法)
协助例子:
手机壳
I 核心点
- 伪证法
设计几个相关的假设的点,用手头的资料进假设验证。
请勿试图找出最合理的假设,只需要剔除无法证实的假设,即证伪。
证伪法比满意法更贴合实际,满意法的严重问题是,即使反面证据堆积如山,但是第一印象导致你往往视而不见。
并非只有数字才是数据,“数据”以各种形式存在,如小道消息。
诊断性
根据数据,诊断假设的可能性大小
如果某一个证据,对各个假设的支持强度是一致的,则这个证据不具备诊断性,可以排除。
II 总结
- 伪证法比满意法更理智
- 伪证法适用于异质数据
6 贝叶斯统计:穿越第一关
协助例子:
确诊患流感概率
I 核心点
- 适用于直接概率问题
在基础概率的基础上,分析波动数据
即基础概率是确定的这个前提下P(L),出现目标的概率
- P(L| )
例子:患病人群P(L),基础概率。
客观事实L | 客观事实~L | |
---|---|---|
测试目标 | P( |L),真感染,测试感染 0.9 | P( |~L),未感染,测试感染 0.09 |
测试目标- | P(-|L),真感染,测试未感染 0.1 | P(-|~L),未感染,测试未感染 0.91 |
在L的条件下,P( |L) = 1 - P(-|L)
在~L的条件下,P( |~L) = 1 - P(-|~L)
- 求一个怀疑的东西
P(L| ):测试 的情况下,事实L的概率
P(L| ) = (P(L) * P( |L)) / (P(L) * P( |L) P(~L) * P( |~L))
P(L| ) = (1% * 90%) / (1% * 90% 99% * 9%) = 0.091
- 信息整合工具
贝叶斯公式是信息整合工具,在新的信息出现后,可以重复利用重复整合。
不管怎么样,9%的概率已经远远大于基础概率%1了,你不怀疑吗?在这个基础上,能不能再检测一次
但是我对基础概率有怀疑,为什么要取这个为基础概率?
只是为了说明贝叶斯公式可迭代,因为第二次检测与第一次检测相违背,而不是相辅相成!
II 总结
- 贝叶斯公式用于判断基础概率P(B)的基础上,在A条件下是B的概率。并可迭代。
- P(B|A) = (P(B) * P(A|B)) / (P(B) * P(A|B) P(~B) * P(A|~B))
- B的基础上A的概率 & 非B的基础上A的概率。
7 主观概率:信念数字化
协助例子:
投资公司
I 核心点
- 主观概率是一种将严谨融入直觉的便捷办法
概率用词的出现,证明了提出的观点是一种主观的观点:可能,肯定,大有机会,等
使用散点图进行描述,可以简单地得出概率。
- 标准偏差
分析点与数据集平均值的差距。数据集中的大部分点,都会落在平均值的一个标准偏差范围内。
- 使用主观概率不能保证主观概率的正确性
II 总结
- 将主观的观点进行数字化描述,方能看出差异
8 启发法:凭人类的天性作分析
协助例子:
小镇的垃圾数据从哪里获得
I 核心点
- 获取直观的数据,不容易。无法建立统一的计量模型。
- 启发法,从直觉走向最优。最优化是一种理想的境界。从计算机的角度来说,启发算法可能获得最优解,但不保证。
- 分析师尽量避免依赖直觉。
- 如果A的数据无法直观获得,则用B的数据进行分析,换一个角度
II 总结
- 换一个角度,农村包围城市的算法。
- 提交的报告,也就是心智模型的转变,需要描述清晰。
9 直方图:数字的形状
协助例子:
使用什么手段提涨薪更有效
I 核心点
- 数据的图形表示方法不计其数,直方图是其中出类拔萃的一种。
直方图与柱状图有些相似,能迅速而有效地汇总数据 。这种小巧而实用的图形量度数据的分布、差异、集中趋势等。
主要是为了介绍一种统计算软件。
II 总结
- 柱状图看趋势。可能是教程比较老,趋势图不是更好?
10 回归:预测
协助例子:
预测加薪幅度
I 核心点
- 回归算法
计算机中也经常提到回归算法。
回归线就是最准确地贯穿散点图中的各个点的直线。
- 回归线:
一些数据会回归到一个平均水平。的确是这样,比如工资、N BA运动员的身高等等。
回归线对于一些线性相关的数据很有用。通常就得出来一个一元一次方程。
II 总结
- 线性回归函数可以大致用来预测
11 误差:合理误差
协助例子:
加薪谈判的误差
I 核心点
- 预测就有不准的风险
预测有失精准并不稀奇。不过,如果在进行预测的时候指出误差范围,你和你的客户就不仅能知道平均预测值,还能知道该误差造成的典型偏差,指出误差可以让预测和信念更全面。还需要懂得如何控制误差及如何尽量降低误差,从而提高预测可信度。
- 千万要对模型假设保持戒心
观察他人的模型时,一定要想一想他们的假设有何道理,以及他们是否忘记了某种假设。
不合适的假设会使模型完全失效,这还算是最好的结果;最坏的结果是具有危险的欺骗性。
- 预测值与实际值之间的误差,叫做机会误差
对机会误差的分析,是统计模型的核心。也称作均方根误差。
均方根误差
描述的是回归线周围的分布情况,指出两个变量之间的关系。
使用均方差得到了回归线与差值的关系
此时,不同的地方差值很大。所以可以考虑将数据分为不同的区域,使用不同的回归线预测。
均方根误差解释见 维基百科
II 总结
- 回归预测与实际肯定有误差,能解释即可
- 分组进行回归预测
12 相关数据库:你能关联吗?
协助例子:
RDBMS
I 核心点
跳过,关系型数据库的使用
II 总结
13 整理数据:井然有序
协助例子:
数据整理
I 核心点
- 数据分析有一个不可告人的秘密——作为数据分析师,你花在数据整理上的时间多过数据分析上的时间。
- 到手的数据往往算不上井井有条,因此,需要做一些繁重的文字处理工作, 使数据格式符合分析的需要。
II 总结
- 数据按照规则进行提取,使得杂乱的数据变得有规则。