关于数据、数据流、数据管道的一些看法(一)

2019-11-12 09:39:25 浏览数 (1)

来源:AustinDatabases丨文:Austin Liu

最近间接的获取了不少关于数据流,及数据融合,管道等方面的知识,由于脑子内存小,不写出来很快就会忘记,所以还是硬着头皮写一写。

数据作为一个专有名词,至少有10年的时间,围绕这个词衍生出很多词汇。

大数据分析、数据敏捷分析、数据spss、大数据应用、智能数据AI、围绕这些词汇的产品也不少,如HADOOP、SPARK、HIVE、Teradata、greenlum 等产品。

这些产品已经在很多公司中的大数据分析中得到广泛的应用。 今天想说的并不是这些产品,想谈的是一个最近悄然热门的行业 Datapiple, 数据管道。

什么是数据管道,为什么需要数据管道软件,数据管道在目前的企业中到底有什么地位,如何应用?

有人马上会说,你别糊弄人,你说的不就是ETL嘛,老掉牙了。 是吗?那我提几个问题,你看看如何解决。

问题1 :

业务部门数据由于历史原因,使用的RDS 类型多种多样,有ORALCE ,有SQL SERVER ,有MYSQL ,甚至有MONGODB ,现在大数据分析,要整合部分这些数据库的数据,到一个大数据平台进行数据分析?

问题2:

业务部门数据表设计之初,没有考虑ETL数据抽取的问题,换言之没有时间字段,你如何在上百G的数据中抽取增量数据?

问题3:

业务部门多种需求,要求在业务获得数据的1个小时内,将更新的业务数据传递到数据部门进行处理,获得DATAVIEW

问题4:

业务部门中都有数据分析人员,有的人员精通 T-SQL, 有的擅长 PL/SQL, 还有的只会JAVA ,你如何满足这样多种多样的数据目的地需求。

问题5:

目前由于数据库更新,将ORACLE 数据库替代,使用PostgresQL 来代替ORACLE。目前需要进行灰度发布,ORACLE 和 POSTGRESQL 数据之间进行实时同步,当程序跑通,上线两个礼拜后没有问题,将ORACLE 清除。

说没有什么了不起的同学,站出来,把我上面的问题一并解决吧,估计已经吐血了。

在提升一个高度,站到CDO的角度,你公司使用的数据库类型,我不关心,我只关心你的数据流是否能及时传导到我的各种目的地,让我进行分布式的运算。 同时数据必须在管道中进行加工处理,而我还要一些RAW的数据对我计算的数据进行验证,也就是 单点多传,数据清洗,数据整理的要求。

估计说ETL 的同学,你的胆汁都吐出来了吧!!

这时候我听到一个声音 ORACLE OGG , I am sorry,

1、OGG 有多贵你知道吗?

2、OGG 能满足上面所有需求吗?

价格我们先放到一边,让OGG 支持 ORALCE 到 PG 的数据流, ORACLE 到 TIDB 的数据流, MONGO DB 到 传统数据的数据流(对你没有听错是MONGO DB 到传统数据库的数据流)

OGG还需要在数据的源端,安装AGENT,造成某些服务器的负担和不安全性,如果是外企,还要在评估一番你的数据获取方式安全与否,然后在推诿,扯皮,审批一番,在中国市场瞬息变化的行情下,半年过去了。等批准的时候,市场早就变化了,数据变质了。

而每次数据不能及时供应的背锅侠,运维,还是站在背锅侠的最前端,多个数据源数据获取不及时造成数据获取延迟,数据获取不准确,数据提供的格式不对,数据提取时,对业务系统的负担,造成业务投诉。

终上所述,集中了业务数据分析,大数据部门,运维,人的,机器的,程序的,各种问题,在这个 数据通道的需求中集中爆发,各种不满和委屈淋漓尽致。

我们需要什么:

1、一个能实时获取数据流,将业务数据像水一样的方式,通过水管顺畅的流向各个目的端,支持者。

2、一个能支持各种数据库,及大数据软件的数据交换中心的支持者

3、一个能在数据交换的过程中,还能做点数据的小变动,将不必要的数据,截止在数据的源端的工具。

4、一个能方便快捷,部署,不在数据源端做任何安装的数据获取软件

5、将复杂的ETL 数据调度,转换为无需担心的数据一致性必然传输。

这样的软件有没有,根本就没有吧 NO NO NO

基于每个数据库的底层原理,ORACLE REDO、ARCHIVE、SQL SERVER CDC、MYSQL BINLOG、 POSTGRESQL WAL、MONGODB 的OPLOG 将这些底层编码破解的方法,就是获得上述能力的先决条件。

避免有广告的嫌疑,这里不提任何公司的名字,但在中国市场,已经有这样的高科技企业,实现了这样的功能。每个高速发展的企业,也需要这样的软件,将死的数据,变化为数据流,让每个数据的索取者,和数据提供者,皆大欢喜,一身轻松。

——END——

0 人点赞