你好,这里是巡山猫编辑部,我是巡山猫。
时隔半年的这篇是来自于一个自称”学医的老螺丝“的投稿,以下是正文。
当了这么多年数据行业螺丝钉,攒了一定的经验,对数分、商分、战分、情报分、投资分……这一类分析岗位有几个核心体会:
第一个是数据为啥用,数据及相关产品的消费侧在哪里:
为的是数据化决策用,是 真实世界>事件>数据>信息>知识>智慧>决策链路中由真实世界变为虚拟世界的门扉。
而且无论是不是拍脑袋决策,都可以用数据来支撑决策依据,同时用大量的决策类套路(路径依赖,或者说是经验与知识)来降低决策风险。
第二个就是要分析啥,要产出啥:
①现在是什么情况(现况描述,小学时候的看图表写文字差不多就是这个,但是套路会更多一些,比如某些GIS分析);
②有没有异常(异常分析挖掘);
③有没有风险(风险管理控制);
④算法模型应用:
a 模型推理(根据现有数据预测未来或未知,输出可能的趋势是什么或分类是什么,本质使用数学模型预测与机器学习推理测算代替人类预测和决策,人类让渡部分非核心责任的决策权,用数据算力与算法来替换这部分人类能力与责任);
b 基于可解释模型的业务理论建模(牛顿力学体系);
⑤这么操作效果如何(主要是对照实验与假设检验,部分价值分析环节可简化掉ab测试,直接算ROI);
⑥这件事情与哪些因素有相关性(关联分析、相关性分析、根因分析CAR);
⑦这些事件有没有因果(因果推断与可解释,以对照、干预、反事实推断为主要形态,与上一条不同的是这个是为了解释为了问个why,带着那么一点点好奇心与打破砂锅问到底的态度,上一条是为了可操作);
⑧基于现有条件下该怎么做才能利润/效率等的最大化,哪些是可能的最优方向或策略(核心是运筹与优化相关内容);
⑨用计算机能不能大规模的快速的模拟仿真(AlphaGo、Alphafold2、创新药研发)。
大部分产出的东西都是上述子项或者子项组合。
上述子项每一个都可以展开成一个学科。
有的是依靠科学思维,有的是依靠计算机计算速度的生产力,有的是依靠简单的推理,有的是依靠方程求解,有的是依靠优化,有的甚至只需要把问题描述清晰和结构化……这一大堆不相干的需求,消费侧搞不定这些事情,那就需要分析师来搞定。
第三就是有时候真不需要那么频繁的数据决策:
这个涉及到了不同行业中对数据产品消费能力问题,以及互联网技术、信息技术、数据科学技术对决策消费品生产的生产力提升的问题。
那些开拓上升期搞面向用户精细化运营的互联网企业在探索未知事物时,基于科学视角的实验模式在资源较为充足时,是最不坏的选择。
举个简单的例子:
医学的科研行为是一种典型的数据分析,从方案设计,到数据采集,到数据分析,到结果结论呈现,再到成果的使用。
但是一线医生不需要无数的让人眼花缭乱的研究成果,只需要那些大专家给出结论写进每年更新一版的教材或诊疗指南中。
同时这个链条中,只有方案设计、数据分析没有瓶颈,其他环节都有不同程度的瓶颈,而核心瓶颈在数据采集侧:
研发一个新药,要采集到足够的数据,可能要临床观察5年以后了;
看某种生物材料的紫外光衰老速度,可能也要很久;
甚至一项医院管理类创新,能收集到足够的数据,也要半年以后了。
而摸清楚用户的喜好,只需要不断的拍脑袋与实验再实验,大数据技术与互联网革新中,对面向人群的科学运营分析带来的生产力革新是质变的,是数量级提升的。
以传统的某个专项商业分析为例:
需求提出->需求问题定义->分析课题与问卷量表设计->线下的问卷与流调->问卷回收->问卷数据人工单/双/三录入->数据处理->数据分析->数据结果与结论与PDCA循环->线下推广->推广过后的评价。
这个流程因线下问卷成本/时效问题、线下推广成本/时效问题,往往会拉长至以年为单位。
而互联网模式下的运营分析,也依然是这个分析模式,但是因为线上的高效率,直接将时间缩短至月为单位,同时将常规的运营分析模块化模板化流水线化。
大数据 互联网对这种模式带来的生产力提升是压倒性的。大数据时代将意味着“长尾效应”将是未来个人生活和商务运营一个标准模式。
因此互联网企业对很多层面的数据消费需求就非常旺盛,同时这一部分决策权也下放到了一线员工那里,用实验来验证,是一种动用互联网与信息技术来提高人力密集型的试错类决策生产效率的策略,而且内部还可以开启赛马模式来加速这个测试过程,虽然很自然选择,但可能这也是探索新业务时以及在新业务转向精细化运营时,但凡有点资源的最不坏的选择。
这里另外延伸一下就是为什么那些互联网企业很难进入产业:
第一个是外流的人才很难真正进入产业,用数据来驱动业务。
同样还是以医疗为例:
医生的诊治行为也是典型的数据分析行为,从问哪里不舒服开始,就开始了逻辑判断和推断;之后开的大量检验检查,再根据检验检查结果推断可能的疾病,再实施的治疗,并根据治疗情况调整用药或者要求患者来复查。
在这个诊治链路中,数据采集是望闻问切,是检验检查指标项,是复诊回访的问询,而那些检验检查结果是面向诊治链路的辅助决策BI,结果中的异常值是典型的经异常值挖掘分析后产出的知识模型;
对疾病的诊断是医生的经验行为,除了偶尔的灵感闪现外,主要就是个人经验形成的决策树模型,厉害的医生会动态修正这个经验决策树,庸医只会照本宣科。
这个行为本身就是极为数据驱动的,互联网的那套东西并不新鲜(他们在因果推断以及可解释性这两个领域甚至是拙劣的),而这之中的业务知识与业务流程知识,却又是体系化而门槛极高的,同时在产业积累的漫长时光中,也经历了大量的科学证实与证伪过程。
有些互联网企业出来的高P总监副总们就非常的可笑,在没有密集数据消费的场景强推数据驱动,在强数据驱动的领域又不想去跨过业务门槛,同时也解决不了分析链路中的产能瓶颈问题,然后在那里瞎感叹生不逢时,感叹自己对牛弹琴,却不思考他们之所以能在传统行业出现,纯粹是那批不知道自己为何成功的村炮老板想象中的那些看不懂技术/思维名词对传统是降维打击,想赌一把试试,而高P们自己在互联网大厂本来就是赛马极致下被两面下注的某匹赛马,很多能力是组织与系统本身的能力,而非自己的能力。
当然,另外一个是层面的很难进入。
产业是互联网企业自己撸袖子下场来干活也进不来,这个就涉及到了业务门槛带来的人效成本问题了,一个大厂牛人和一个小厂员工,在跟业务扯皮中,人效差距真的不大,而成本差距和集团内部要求的人均产能差距就大的吓人了,大厂如果干具体业务,那必然要有碾压性的生产力来当后盾或者有创始人头目级的大佬来强推,否则肯定干不成。
之后就是传统行业的组织管理模式与互联网企业差异的巨大,说是鸿沟也不为过,双方都跨不过这道坎。
第四就是小规模/大规模数据产品的生产和作坊式/工业化产品生产非常相似:
①数据采集对应矿产资源采集。
②数据治理对应生产管理与质控。
③数仓与数据湖对应了加工生产车间与仓储体系。
④数据应用类产品对应的工业产品。
工业化的精髓在数据产品的生产中也可以应用,比如系统解耦合与零件化,比如主数据元数据与标准体系与生产的标准体系,比如流水线式的作业。
第五就是,分析多数情况下的形态下不是依据数据进行分析,而是逻辑推型分析或自认为是逻辑推断型分析的拍脑袋分析。
最后就是,分析还得尽可能的去遵守这老三样:尊重事实、系统化的(MECE)、大胆假设小心求证。
这是党实事求是的精神、也是麦肯锡制胜的基本套路、更是管子荀子以及西方先哲们的追求。
以上,就是本篇内容。