大数据知识体系之数据采集

2021-06-17 20:13:12 浏览数 (1)

目录

数据平台数据采集系统日志采集网络数据采集设备数据采集数据同步数据存储数据计算实时计算离线计算数据挖掘数据服务数据模型数据建模方法论数据模型管理体系表设计数据管理元数据收集和搜索数据血缘数据质量计算任务管理平台成本管理数据应用互联网工业政务

数据平台

数据平台本质上是在为数据流服务。为了将数据收集到一个统一的地方存储,就是所谓的数据采集;采集完后,数据需要沉淀并保存起来,这时候需要数据存储;数据存储起来后,需要用一个工具去处理这个数据,也就是数据计算,其中因为业务对实时性的要求,就有了离线计算和实时计算;计算完,还需要对数据进行深度挖掘,发现其背后的规律;在发现数据价值后,要使用数据服务将这个价值提供给更多人。

数据采集

数据采集是大数据之源。没有数据采集,也就没有后续的所有的大数据内容。

从采集的数据类型来看,数据采集的数据类型包括了基础的结构化数据、半结构化数据和非结构化数据,非结构化数据包括了音频、视频、图像等数据。所谓的结构化数据,一般可以认为是类似于二维表形式的数据类型,其常见形式可以是关系型数据,也可以是文本文件;半结构化数据,常见的是类似Json的文件,需要经过某种预先的解码。在大多数情况下,数据采集的数据都是结构化数据和半结构化数据。

数据采集的来源可以包括系统日志采集、网络数据采集和设备日志采集。

系统日志采集

这里的系统泛指为数据库、服务器。而常见的前端埋点的数据往往会首先落地在服务器端,所以也可以认为是服务器数据的一种,也可以归纳在这里面。采集的数据包含了系统的运行状态、行为事件等以及埋点相关的浏览器、APP的客户端、服务端的行为事件。

前端埋点的数据的采集有自行开发埋点和所谓的无埋点的手段,因为大部分工作都是前端完成的且技术成熟,相关的文章很多,在此不详述。系统日志端的数据采集可以参看我之前写的文章:日志采集。

网络数据采集

网络数据采集是指通过爬虫或者公开 API 等方式从网站获取数据。数据的内容可以是文本、视屏、图片数据等。

设备数据采集

设备数据采集主要是指针对一些物理设备的数据采集,常见的如传感器,探针。

网络数据采集和设备数据采集接触不深,不再此详述了。

下面聊几个接触到的日志采集过程遇到的问题:

在日志采集中,最核心的问题是如何保证众多数据来源的都可以确定唯一的主键。也就是常见的one id问题。换句话说,来自APP的采集数据和不同设备登陆的用户,如何确定是唯一的用户。

第二个问题要解决数据的一致性问题,如何保证用户点击了某个按钮或者访问了某个网页一次,后台数据采集的也有且只有一条数据。在保证一致性的问题,某种程度上等价于网络问题。在用户端采集时,网络有可能不稳定的情况下,会出现重复发送消息或者漏发送消息的情况。

第三个就是埋点版本问题,一般常见于大团队。如何保证数据口径的一致性。采集的数据口径一致,处理数据的口径一致,还有就是数据格式的一致。

第四个就是采集数据的规范性问题。如何让业务人员知道这个网页有埋点,并且恰当埋点,不少埋点遗漏数据,也不多埋点影响前端加载的流畅性。进而延伸出来的就是如何使用埋点的问题。

采集完数据是第一步,接下来就需要把数据同步到一个统一的数据存储平台。

数据同步
数据存储
数据计算
实时计算
离线计算
数据挖掘
数据服务

数据模型

数据建模方法论
数据模型管理体系
表设计

数据管理

元数据收集和搜索
数据血缘
数据质量
计算任务管理
平台成本管理

数据应用

互联网
工业
政务

参考链接:

  1. https://mp.weixin.qq.com/s?__biz=MzIwNDI0ODY1OA==&mid=2655932516&idx=1&sn=1320b6d93332c54aef8b070cf7e78d31&scene=21#wechat_redirect

0 人点赞