数据可视化之旅

2019-12-27 11:19:29 浏览数 (1)

数据可视化之旅

数据可视化学习小组第一期成员创作。

0x00 前言

在开始数据可视化之旅前,我们先用下图回顾数据链路过程

以上这张图片比较普遍现象的数据链路,如果你是厨师,最重要的肯定是做菜环节,也就分析环节。数据可视化只是最后的摆盘环节。

也就说当你的菜做得好吃了,摆盘会是锦上添花,如果你的菜做得难吃,摆盘再好看,那也是下不了口的。

如同你的分析报告,你的内容有意义有结论,你把图表做得好看一点,颜色搭配的舒服一点,会给人眼前一亮的感觉。

但就算是做得不好看,你的分析结论很棒,支持了公司的决策,谁又会管你可视化做得如何呢?

数据分析的目的,不是把图表做得好看,也不是把分析过程做得很复杂,也不是搞很多数据从而来做大数据,而是为了解决实际问题。

数据可视化很重要,但其核心是为了更清晰的传递信息,把复杂多维的数据用图表展现,一眼明目知道结果,是把复杂问题简单化。而不是让图表更好看更炫目.

技术与业务是相辅相成的,缺一不可,脱离了业务的精美图表没有意义,而低劣的图表也会拉低业务的等级.

关于数据可视化的重要性问题,这个要对人对事。

对于专业的数据分析师/商业分析师而言,他们的目标是要解决业务问题。为了解决一个问题,他们要和业务反复沟通需求,可能花大把的时间在清洗数据和构建分析模型上。最后结果出来了,可视化只是水到渠成的事。所以就数据分析过程链而言,数据可视化并不是核心。

对于不懂数据不懂业务的人而言,他们要知道的可能是“我这个月的销售量是多少?”“和竞争公司比怎么样”你不可能拉来几十张表格给他。需要给他一张图,展现全年的销售情况。最好深入挖掘,是否需要地域区分,展示目标和回款这类数据的对比。可视化对于他们而言就成了获取信息的有效方式,甚至是一个可随时使用的产品,且最直接最真实。

有些可视化是面子工程

很多公司都会在前台处设展示大屏,老板都会带着他的客人经过这里,如果做一个漂亮的数据可视化,给人很科技感的感觉。或许还能为谈生意助力(开个玩笑)。一般来说大屏数据可视化会让老板觉得很有面子。

一项大屏展示的数据可视化虽然工程很简单,不就展示数据嘛?但其实这里面有很多坑,需要思考以下5点

1、可以公开哪些数据(很多信息很敏感,特别对于创业公司来说) 2、如何实时刷新大批量数据? 3、维度会是大家都想看的吗 4、应该使用哪种可视化方式 5、你看的这些数据,有意义吗

可视化分析决策系统是趋势

这种系统广泛用于智慧公安、智慧城市、智慧园区、智慧航空、智慧交通、网络态势等,近两年开始流行,并且我认为是这是数据可视化非常好的趋势,可视化对这些特定行业来说起到极其重要的作用。

数据可视化已在各大企业普遍应用

数据可视化涵盖的内容很多,比较普遍的就是自动化的监控看板,敏捷式开发也是近一两年的热词,意思是不需要每天都做日报、月报、周报。一次开发,自动形成推送。这样数据分析师从中解放出来,更多去思考数据驱动业务发展,而不是困在取数的阶段。

数据分析的最终意义是推动决策,那么如何才能帮助管理层节省这个时间我觉得是非常重要。数据可视化就是管理者在和时间赛跑的帮手。

最后,不管你用什么可视化,别忘了你的目的是理解数据

0x01开始数据可视化之旅吧

前面我们介绍了数据可视化在整个数据链路中的上下游关系,也从不同角度探讨了可视化工作,而对于一个完整的数据可视化工作,主要包括以下四个步骤:

一.确定数据可视化的主题

即确定需要可视化的数据是围绕什么主题或者目的来组织的。

业务运营中的具体场景和遇到的实际问题,公司层面的某个战略意图,都是确定数据可视化主题的来源和依据。简而言之,一个具体问题或某项业务、战略目标的提出,其实就可以对应一个数据可视化的主题。

二.提炼可视化主题的数据

确定数据围绕什么主题进行组织之后,我们接下来要了解我们拥有哪些数据,如何来组织数据,这里面又衍生出另外三个问题。

1. 确定数据指标

分析和评估一项业务的经营现状通常有不同的角度,这也就意味着会存在不同的衡量指标。同样一个业务问题或数据,因为思考视角和组织方式的不同,会得出截然不同的数据分析结果。

例如,要评估寄件这项业务,有人想了解寄件量,有人想知道不同快递公司的运输时效,有人想知道寄件用户的下单渠道,还有人想了解寄件收入。

拿起数据,就开始画图,会让整个数据可视化作品没有重点、杂乱无章,是一种用战术上的勤劳掩盖战略上的懒惰,最终的呈现效果一般不理想。

2. 明确数据间的相互关系

基于不同的分析目的,所关注的数据之间的相互关系也截然不同,这一步实质上是在进行数据指标的维度选择。

例如,都要统计寄件量,有人希望知道各个快递公司的寄件量是多少,有人想了解一天内的寄件量高峰位于哪个时段,还有人想知道寄件量TOP10的城市排名。这里的快递公司、时段、城市,都是观察寄件量这个指标的不同维度。

通常,数据之间的相互关系包含如下几类:

  • 趋势型:通常研究的是某一变量随另一变量的变化趋势,常见的有时间序列数据的可视化。
  • 对比型:对比两组或者两组以上的数据,通常用于分类数据的对比。
  • 比例型:数据总体和各个构成部分之间的比例关系。
  • 分布型:展现一组数据的分布情况,如描述性统计中的集中趋势、离散程度、偏态与峰度等。
  • 区间型:显示同一维度上值的不同分区差异,常用来表示进度情况。
  • 关联型:用于直观表示不同数据之间的相互关系,如包含关系、层级关系、分流关系、联结关系等。
  • 地理型:通过数据在地图上的地理位置,来展示数据在不同地理区域上的分布情况,根据空间维度不同,通常分为二维地图和三维地图。
3. 确定用户关注的重点指标

确定了要展示的数据指标和维度之后,就要对这些指标的重要性进行一个重要性排序。

因为对于一个可视化展示的终端设备而言,其屏幕大小有限,且用户的时间有限、注意力也极其容易分散。如何让用户在短时间内,更有效率的获取到重要的信息,这是评估一个可视化产品好坏的重要因素。

在可视化设计之前,不妨问用户两个问题:

  1. 如果整个版面只能展示一个最重要的信息,你希望是什么?
  2. 你希望展现这些信息的理由是什么?通过用户对这些问题的回答,你能了解到,在已确定的指标和维度中,用户最关注的是哪个或哪些。

通过确定用户关注的重点指标,才能为数据的可视化设计提供依据,从而通过合理的布局和设计,将用户的注意力集中到可视化结果中最重要的区域,提高用户获取重要信息的效率。

三.根据数据关系确定图表

数据之间的相互关系,决定了可采用的图表类型。常见的数据关系和图表类型的对应关系如下图所示:

四.进行可视化布局及设计

在做好了以上的需求收集和整理之后,接下来就要开始进入可视化的设计和呈现的阶段。这一步主要包括两个方面:一是进行可视化布局的设计,二是数据图形化的呈现。

1. 页面布局

可视化设计的页面布局,要遵循以下三个原则:

(1)聚焦

设计者应该通过适当的排版布局,将用户的注意力集中到可视化结果中最重要的区域,从而将重要的数据信息凸显出来,抓住用户的注意力,提升用户信息解读的效率。

(2)平衡

要合理的利用可视化的设计空间,在确保重要信息位于可视化空间视觉中心的情况下,保证整个页面的不同元素在空间位置上处于平衡,提升设计美感。

(3)简洁

在可视化整体布局中,要突出重点,避免过于复杂或影响数据呈现效果的冗余元素。

2. 图表制作

影响图表呈现效果的,主要有两个影响因素,一个是数据层面的,一个是非数据层面的。

(1)数据层面

若数据中存在极端值或过多分类项等,会极大影响可视化的效果呈现,如柱形图中柱形条的高度、气泡图中气泡的大小、饼图中的分类项太多等。

对于数据本身造成的可视化效果不佳的情况,我们是不是就束手无策了呢?当然不是,在以往的可视化过程中,本人虽然也踩了很多坑,但是对于如何解决这类问题也积累了一些经验,下次专题分享。

(2)非数据层面

非数据层面,但是影响图表呈现效果的因素,通常在设计过程中就可以解决。

比如图表的背景颜色、网格线的深浅有无、外边框等等,这类元素是辅助用户理解图表的次要元素,但如果不加处理全部放出,视觉上就不够聚焦,干扰到你真正想展示的数据信息。

因此,对于此类非数据层面,但是影响图表视觉呈现的元素,应该尽量隐藏和弱化。

最后,我们回顾下数据可视化迭代过程

0xFF 总结

本文为《数据科学家学习小组系列》之数据可视化学习小组(第一期)的成员学习笔记。

0 人点赞