一、概念:产品、工具、技术 、E T L
1、产品—为了满足市场需要,而创建的用于运营的功能及服务”就是产品。产品是以使用为目的物品和服务的综合体。产品分类:服务、软件、硬件、流程性材料。其中这里提供的是软件。
软件—由信息组成,是通过支持媒体表达的信息所构成的一种智力创作,通常是无形产品,并可以方法、记录或程序的形式存在。如计算机程序、字典、信息记录等。
2、工具—原指工作时所需用的器具,后引申为达到、完成或促进某一事物的手段。只要能使物质发生改变的物质,相对于那个能被它改变的物质而言就是工具。
3、技术—是解决问题的方法及方法原理,是指人们利用现有事物形成新事物,或是改变现有事物功能、性能的方法。
4、E T L—是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
二、根本区别
1、E T L技术—即ETL方法原理,是在数据仓库技术发展中日趋成熟的。到现在,大家常说的ETL技术已经远远超越出了这E、T、L这三部分的范畴,不再是简单地将数据从一个地方抽出进行转换再装载到另外一个地方这种概念了。时下大家说得最多的名词是过去的数据整合平台、数据转换平台、数据交换池,到数据仓库、数据集成、数据中心,再到当下新名称数据中台、数据治理、数据融合等等,这些概念里统统都涵盖有ETL技术,都已经是E-T-L技术的一个大大的分母了。
2、ETL工具—ETL(orELT)的流程可以用任何的编程语言去开发完成,由于ETL是极为复杂的过程,而手写程序不易管理,有愈来愈多的企业采用工具协助ETL的开发,针对某固有行业需求用或写存储或写SQL实现,也可称之为ETL工具。还有直接使用开源或在开源基础之上自行写代码完善其功能或发现BUG、修改BUG。
3、ETL产品—与ETL技术、ETL工具对比,产品中最大区别不仅有成熟物品还有服务。所以必须满足以下三要素,方可称之为ETL产品:包含有: ①一套成熟 数据集成工具 ②一套成熟 数据集成实施方法 ③一支足够强有力的 执行技术团队
三、诞生时间、缘由、过程
ETL技术: 跟随数据库诞生而诞生 ,本数据库辅助功能自带此功能,仅限于自身数据库类型功能,局限性。如Oracle的OWB SQL server 的 SSIS ) 数据库自带和数据本身耦合性比较高。
ETL工具
- 企业信息系统林立,系统间数据无法交换共享
- 企业各部门竞相构建不同业务系统满足市场:MIS、ERP、CRM、SCM、WEB- BASED、 HR、 网管、计费系统等等
- 各系统解决各部门和生产线面临各类挑战:客户服务部门、财务部门、供应链部门、市 场营销部门等,同时也不断出现更多新的数据源类型
- 数据采集、数据调用、数据交换、数据清洗……
总之,企业IT部门、DBA、开发人员 自行解决。定制ETL开发工具:或写代码、或写储存,或拿来主义(自行研究学习使用开源、包装开源)类似于“冷兵器时代”
ETL产品
- 历史数据海量,无法进行战略决策
- 用手工编程解决只可能将企业信息系统之间做成一个纷繁复杂的蜘蛛网
- 手工编码远远慢于实际数据信息化及时共享
- 在业务系统和数据仓库存储库间建立数据传输通道:
- 首先将数据从原始系统抽取出来,然后按照预设规则对数据进行抽取、清洗、装载、标准转换、净化汇总、分发……将本来异构的数据进行统一标准化
- 然后将标准化后的数据加载到数据仓库存储库中
- 最后供数据分析、数据报表、数据挖掘的高质量数据
信息部门、DBA、开发人员 需要精准、实时获取业务所需数据,需要的不仅限于一款工具,重点给予实施方法、即刻服务支持。