懂数据系列第一课 :数据分析基础理论

2023-03-02 14:23:06 浏览数 (1)

24

2023-02

懂数据系列第一课 :数据分析基础理论

近期在整理一些散落在各处的老文章发出来。懂数据系列内容是很早之前给公司非数据专业人员做的系列分享培训,共计四期内容,后面三期内容偏excel的实操展示和案例分析,不便于分享,只把第一讲的内容分享出来。

引言

懂数据系列第一课 | 数据分析基础理论

——人人都会数据分析

十年后没有数据分析师这个职业,都是机器在做;十年之后Times周刊上年度最佳CEO是一个机器人。

这句话曾经在数据分析师的圈子里引起过一阵讨论,我本人还是非常认可这句话的。在我眼里,今天的数据分析师和十几年前的打字员没有任何区别。今天并没有打字员这个职业,是因为你几乎找不到不会打字的劳动者了。数据分析也是类似,十年之后,你肯能也找不到数据分析师这样一个职业了,因为人人都会数据分析。

本质上来说,数据分析是一种处理问题的方法,应该是和打字一样稀松平常的技能,而非一种职业

简单理解,就是在企业常规运营的基础上革命性地添加数据分析和数据挖掘的精准支持。

数字化是应对现代企业竞争白热化的管理革命和技术革命。

对当代职场人来说,“懂数据”已经成了职场必备生存技能。

数据分析是什么

顾名思义,数据分析就是对数据进行分析和判断,发现数据中隐藏的规律或反映的问题。这个词严格来说其实是一个偏义副词,这个词的核心并不在于数据,而在于分析。为了更好地解释这这个问题,我想我需要先介绍一些概念。

数据≠数字

很多人会认为数据分析就是和数字打交道,实际上数据和数字并不是相同的概念。数字自然是数据的一种,除此之外,文字、图像、音频、视频都属于数据,都是数据分析的分析对象,只不过相比数字,其他类型的数据往往分析难度会大一些。

(原稿有一些案例,偏企业特色,就隐藏)

定性分析VS定量分析

从企业经营管理数据分析实践来说,主要包括定性分析和定量分析两类。很多时候,定性分析比定量分析更能发现问题得出结论,但是定性分析的难度往往比定量分析要大得多,分析难度主要体现在了将非结构化的数据结构化。一半而言,只有结构化的数据才可以进行数据分析。

最常见的定性分析:离职面谈、用户访谈、行为事件访谈等。广义上来说,我们给客户打电话沟通需求本质上来说也是一种定性分析,用语言沟通的形式来获取用户的需求数据并进行分析和加工,给到客户满意的服务。

定量分析是最常见的数据分析类型,完全和”数字“打交道。

我常常听到一些同事说,“我是文科生,我数学不好,对数字不敏感,所以我不会数据分析”。对此,我想告诉大家几件事:

第一,我自己就是一个文科生,但是我自诩是一个就算不卓越,但绝对不差劲的分析师;

第二,各位中文大拿们应该比我更理解“偏义副词”是什么含义,“数据分析”在于“分析”而不是数据;

第三,数据不止有数字,非数字的数据还有很多,对数字敏感不敏感其实没有那么重要。

有用的数据分析往往是“道”重于“术”

对于企业业务实践来说,数据分析其实是一个非常“大”的概念:并不是企业组建一个很牛逼的数据团队就能真的实现数字化赋能的。真正的数据化要求人人都得懂点数据理念,这并不一定需要所有人都掌握太高深的分析工具和方法,但是要求大家一定要有数据思维和意识。

二、为什么要做数据分析?

(此处一个案例,隐藏了)

数据分析能够为我们带来什么?

1、理解:过去发生了什么?比如有多少人做了培训第9期的试卷?

2、分析:某种情况为什么会发生?影响某个数据结果的原因是什么?需不需要改善?有没有可能改善?如何改善?得到结果是否合理?

3、预测:如果今天改善不了,明天还会这样吗?如果某项指标下降了,下个月它会更惨还是会变好?万一更惨,应如何采取措施?

三、什么样的数据才能够被分析

例如如下数据:

(示例数据,就不放了,一个业务真实在用的表格)

如何在1分钟内告诉我周六有多少节课?

想要的信息都记录了,但是我们依然不能很快得出分析结论的根本原因是该表格的设计本身存在较大的问题,属于“不可被分析”的数据。

什么样的数据是可以分析的呢?学术一些的说法是这样的:

所谓第一范式(1NF)是指在关系模型中,对于添加的一个规范要求,所有的域都应该是原子性的,即数据库表的每一列都是不可分割的原子数据项,而不能是集合,数组,记录等非原子数据项。即实体中的某个属性有多个值时,必须拆分为不同的属性。在符合第一范式(1NF)表中的每个域值只能是实体的一个属性或一个属性的一部分。简而言之,第一范式就是无重复的域。说明:在任何一个关系数据库中,第一范式(1NF)是对关系模式的设计基本要求,一般设计中都必须满足第一范式(1NF)。不过有些关系模型中突破了1NF的限制,这种称为非1NF的关系模型。换句话说,是否必须满足1NF的最低要求,主要依赖于所使用的关系模型。

是不是看起来很复杂?我们用一个简单的解释,那就是:数据表必须结构化才能被分析。下面我会给大家介绍一些非常简单的原则:

  • 一列只有一个类型的信息

如:性别和年龄是两个类型的信息,不应把这两个信息写在同一列中。

  • 每一类的信息必须是一个层级的

如语文和数学是一个层级的信息,但是语文和中国就不是一个层级的信息。各位中文教育的从业者应该很容易理解这是什么意思。

  • 列名称和数据内容要保持一致

列名是课程,但内容是中国就不对了

  • 数据格式必须要规范

性别写M/F是没问题的,写男/女也是没问题,但是有的地方是M有的地方是男就会带来大量的数据处理成本。

同理,年龄写12.5是可以的,写12也是可以的,但不能有的地方取整有的地方不取整,也不能有的地方按月计算小数点有的地方按照日计算小数点,如果取整,规则也需要保持一致,有的地方12.9岁写成13,有的地方写成12,这也会带来问题:明明两个孩子的年龄一样,被不一致的规则导致了不一样的记录。

  • 数据必须是真实的

假的数据对于分析没有任何意义,比如学生的国籍信息,如果都是销售顾问在系统里随便填写的,那我们看这个数据就没有意义了。

无法保证质量的数据也是失去价值的数据,比如某个网页的浏览量(行为数据),如果是浏览网页的人填写录入系统而不是系统自动记录的,这个数据就失去了意义。

  • 最好不要有合并单元格

对于绝大多数系统和软件来说,合并单元格都会导致术无法统计或统计结果错误

(如何快速拆分已经合并的单元格的数据,可以参考我之前写的文章)

TIPS:能写公式就写公式,手填真的很容易出错

四、常见的分析工具

工欲善其事必先利其器,大数据时代,已经有各种各样的数据分析和处理工具&软件供大家使用。

各种数据分析软件已经做得越来越傻瓜式,开展数据分析工作的门槛也越来越低,就像现在已经没有职业的打字员一样,未来的大趋势一定是“人人都是分析师”。

THANKS

做数据的二号姬

0 人点赞