数栈数据中台专栏(二) :数据资源规划与获取

2021-05-14 14:55:14 浏览数 (1)

本文作者:古明

10年以上技术应用经验沉淀,在金融、政府、互联网行业领域具有资深背景。曾担任过多个大型项目的项目经理或咨询总监,服务过云上贵州、浙江交通运输厅、天弘基金、新网银行等多家大型企事业单位。


数据是未来社会最重要的资源之一。近年来由于互联网与大数据技术的不断发展,越来越多的企业也渐渐意识到对数据的开发和利用在企业发展过程中变得越来越重要。

但是由于企事业部门之间的系统分散开发或者些单位系统重建或引进系统开发项目,导致很多单位内部之间的信息不能共享,产生数据与信息孤岛;或者没有统一的数据规范和标准,造成数据整合的不便。数据还仅仅停留在散乱的资源阶段,离数据“变现”,形成数据资产的理想阶段,还相距甚远。

为解决上述问题,就需要企业自身进行合理有效的数据资源规划,梳理清楚企业自身的“数据家底“,从而掌握企业当前数据资源的详实状况,明确企业的数据种类、未来可能获取的数据种类,以及这些数据的数据量、数据质量、数据用途等等。

数据资源规划是数据治理,数据建模,数据资产管理,数据指标体系规范等工作的前置环节和必要条件,因此数据资源规划的作用至关重要,包括数据资源梳理、数据资源规划实施、数据资源可视化、数据资源分析报告四部分内容。

数据资源梳理:即企业需要梳理清楚:数据来自谁,用在何处,如何存储?一般而言,业内会从三个维度,来对数据资源进行分类管理,数据产生主体、数据来源、存储形式等。

2018年5月25日生效的GDPR法案要求, 企业必须明确满足数据主体的信息权,获取权,纠正权,限制处理权,反对权,删除权和数据可移动权等。

为了满足法案要求,合规,企业首先就要知道自己有哪些数据,数据存储在哪里,需要一个完整的数据地图,对每一个信息进行分类,为企业提供一个所有物理和数字信息的360度的视图,确保企业可有快速定位,评估和监控正在进行的基础上的所有数据。

袋鼠云数据资源规划与获取服务,则无疑在思路、技术上都可以满足企业GDPR法案合规需求。

企业内外部数据资源可通过不同的渠道和方式获取,内部数据资源大多通过企业内部业务和应用系统数据库为数据源,外部数据资源主要通过埋点、爬虫等技术手段来获取。 埋点数据:通过App或网站埋点采集用户行为数据,典型的埋点数据应用场景包括用户行为分析,线上广告营销转化率分析等。 爬虫数据:使用爬虫程序获取第三方系统或网站的数据,典型的爬虫数据可应用于网络舆情分析和价格监测等场景。 日志数据:借助日志采集工具采集机器和应用产生的日志数据,典型的日志数据可用于系统服务异常监控,安全合规审计等场景。

数据资源规划实施:

企业在数据资源规划与获取的过程中,除了需要企业内部提供有效的组织保障,包括数据管理人员、数据分析人员和业务使用人员之间的紧密协作,而且还需要全面的对整个企业或政府部门组织需求分析调研,这样才可有效帮助企业理清数据资源家底,明确数据资源获取与使用的方式方法。

数据资源可视化:

在数据中台理念下,我们所指的数据资源规划和获取一定是企业全局性的考量和行为。“牵一发而动全身”这必然会牵扯到各部门和各层级组织架构的利益。

如果能将现有数据资源梳理结果进行可视化呈现,让各子公司、各部门、各业务需求方都可以清晰了解自身数据资源现状,以及要满足自身数据应用需求,还需要获取哪些数据资源,还需要增加多少量的数据存储空间,还需要补充哪些外部数据,现有数据质量又如何,则可以大规模提高企业数据资源利用的效率。

数据资源分析报告

企业以前对自身数据资源的认识是模糊的,企业需要一份完整详备的数据资源分析报告,指导后续数据治理和数据资产管理平台的建设,最终服务于企业数据应用场景。为了满足客户的这一需求痛点,袋鼠云便将数据资源分析报告作为“数据资源规划与获取服务”的交付产出物之一。

数据资源规划与获取是袋鼠云数据中台7大服务中的基础服务之一,从数据资源到数据资产,还必须经过数据治理和数据整体建模,即我们数据中台专栏下期要讲的,基于数据中台策略的数据整体建模和数据资产管理。

本文声明:

本文首发于数栈公众号:数栈研习社

我们拥有一群一起在钉钉群交流的小伙伴:袋鼠云开源框架技术交流群(30537511)

数栈还在github有一个开源项目:flinkx,欢迎大家一起交流~

0 人点赞