「杂谈」从事数据分析需要掌握工具到何种程度?此篇文章帮你总结全了!

2022-12-09 11:34:25 浏览数 (2)

预计阅读时间:6min

解决痛点:最近有同学私信我,希望了解一下,初入数据分析,需要学哪些工具?需要掌握到什么程度?这里小火龙写一写,希望对你有所帮助。

00

序言

数据分析,横向来看,属于计算机与统计学的结合;纵向来看,始于数据、终于业务。因此需要掌握的工具/技能跨度还是比较大的,从数据流转角度来看,涵盖从「数据仓库→数据提取→数据分析→数据展示→数据汇报」几个模块,小火龙为大家梳理了各模块涉及的工具内容,并标注重要性,供大家参考。

01

数据仓库

数据分析岗位,一般不会涉及数据仓库的搭建及维护,但对数据仓库的了解,有助于下游数据提取,以及做一些ADS层的数仓建设,有益于自身成长。其中涉及到的工具/技巧主要涵盖:SQL、Python、Java、Flink等。

其中SQL是最为重要的,会在下文详细展开;Python、Java在数据处理层会应用到,Python会在下文展开,Java的优先级不高,大家了解即可;Flink在处理实时流时会应用到,优先级同样不高,了解即可。

02

数据提取

数据提取是数据分析的首个环节,将数据从数据库中,按照指定的格式输出出来。在这个过程中,SQL是必备工具。

SQL「重要性:五星」

非常重要!非常重要!非常重要!建议掌握程度如下。

  • 熟练掌握增、删、查、改等基础语句。
  • 熟练掌握基础函数,在遇到问题时,能够快速检索出用什么类型函数来解决问题。
  • 熟练掌握语法结构,能够写出相对复杂的嵌套语句。
  • 有清晰的代码逻辑,在遇到不同类型需求时,能够快速在脑海中形成输出结构。

在之前文章中,小火龙分享过一些SQL文章,感兴趣的同学可以戳蓝字部分:

  • 「干货」SQL常用函数及避坑点汇总『Hive系列1』
  • 「干货」SQL常用10大应用技巧『Hive系列2』
  • 「求职」7道常考的数据分析SQL面试题

03

数据分析

数据提取后,分析是日常工作的核心环节,将数据加工处理,探索其中的业务价值。这里涉及的工具比较多,包含但不限于:Excel、Python、R、Spss、Eviews、Sas等。

Excel「重要性:五星」

虽然不高端,但仍然是数据分析最好用、最常用的工具。建议掌握程度如下。

  • 熟练掌握常用函数。例如:sum、average、vlookup等。可参考文章「Excel函数汇总」
  • 熟练掌握常用操作技巧。例如:行列转置、选择性粘贴等。可参考文章「Excel应用技巧」
  • 熟练掌握常用快捷键。例如:快速删除行列、快速筛选内容等。
  • 了解VBA,能够简单实现Excel自动化。这一点不是必须,但对提高工作效率会有帮助。

Python「重要性:四星」

Python并不是数据分析必备工具,但却能够决定你的发展上限。主要应用场景涵盖:创建SQL中应用的UDF函数、通过脚本快速产出分析报告、通过数据挖掘产出模型。建议掌握程度如下。

  • 熟练掌握Python基础语法、函数,能够看懂别人写的代码。
  • 熟练掌握分析及挖掘常用工具包。例如:numpy、pandas、matplotlib、sklearn等。
  • 熟悉通用的Python项目目录结构。

R「重要性:三星」

从功能角度来说,R与Python很多功能是交叉的。R更加偏向于统计分析与绘图,一般在学术研究中应用较多。对于数据分析同学,Python与R二选一即可,个人推荐前者,应用方向更广一些。

Spss「重要性:三星」

Spss是一款数据统计与应用软件,在处理「离线 中小数据量」的统计分析时比较好用。通过「可视化界面 点选方式」选择不同类型的统计分析,例如:概率统计、相关分析、回归分析等,甚至还包含了机器学习算法与文本分析等,应用方向较广。建议掌握程度如下。

  • 熟练掌握常用的统计学原理,并了解各原理中的参数含义。可参考文章「数据分析中常用的统计学方法」
  • 了解工具能解决哪些问题,至于具体的操作细节,可在用到的时候查询。

Eviews、Sas「重要性:两星」

Eviews和Sas在非经济学领域出现频次不太高。Eviews主要在时间序列分析中有较多应用;而Sas主要在银行及金融业应用较多,属于付费软件。这两个工具,大家了解就好,用到的时候再深入研究。

04

数据展示

产出数据结论后,往往需要配合图表进行展示,Excel、Python Matplotlib基本就可满足需求。但如果希望配置成例行图表,则需要通过BI软件来完成。一般公司内部会有自己的BI平台,而至于外部软件,Tableau应用较为广泛。

BI平台操作相对比较简单,但如果之前没有应用过,建议下载Tableau用一用,了解一下BI平台的一般功能,并能够实现一些简单的看板搭建(Tableau是付费的)。

05

数据汇报

数据对于业务的价值,需要通过汇报让更多人知晓。这里PPT是最常用的工具。

PPT「重要性:五星」

只有一个原则,汇报的PPT「思路清晰 内容简洁 突出结论」即可。

以上就是本期的内容分享。码字不易,如果觉得对你有一点点帮助,欢迎「关注」「点赞」「分享」哦,我会持续为大家输出优质的「原创内容」~~

0 人点赞