当今我们的世界,信息技术存在于我们生活的方方面面。我们的食物、消费的产品,驾驶的汽车,我们的健康以及瞬息万变的即时新闻,信息和娱乐都是通过信息技术为我们提供支持。
数据是信息技术革命的基础。我们生活中的点点滴滴都会生成数据。我们可以利用这些数据,让其为我们服务,例如治愈我们的疾病,改善我们的生活。
那些对数据敏感的企业已经享受到数据带来的好处,而非数据驱动的企业正在感受到竞争的压力。但是,仅拥有数据是远远不够的。如果这些数据很旧,并且没有及时地采取行动,那么即使是再多的数据,也可能无法体现其价值。
我们正处于巨大的数字化转型之中,即使是传统企业也正在通过技术及其产生的数据进行现代化转型,以便更好地为客户提供服务。
但是,数据到底是什么?为什么它如此有价值?如何才能最好地利用它?一个更重要的问题:管理和使用数据的最佳方法是什么?
为了回答这些问题并解释为什么流式数据集成和使用实时数据是非常重要的,我们需要从头开始,然后走向可能的未来。
下面我们将详细介绍通过流式数据集成实现数据现代化,以帮助企业了解如何实现数据现代化。适用于解决现实世界中的业务问题。
我们从数据的历史开始:数据是什么?传统上我们是如何收集和使用数据的?当前我们如何管理超大规模实时数据的?然后,我们介绍实时流式数据集成的思想:它是什么以及为什么它对当今的企业如此重要。
我们还将探讨企业为从流式数据集成中获得价值所必须采取的步骤。从构建流数据管道开始,然后继续进行数据处理和数据分析。在最后,我们将讨论数据交付和可视化,以及数据的关键任务本质。
通过这些,您不仅会了解流式数据集成对于从实时数据中获取价值的重要性,还将对通过什么实现流数据的意义有所了解,以便解决现实世界中的业务挑战。
介绍
自从几千年以前人类开始记录其商品,交易和资金流以来,就已经存在数据。数据非常简单地表示事实,单个数据就是单个事实。最早的数据分析(即将数据转换为信息,知识和行动的过程)很可能是同一位古代人在一个季节结束时确定他们是否有过剩的动物或谷物,并以此来决定 是否出售或购买。
设计用于处理数据的第一台通用可编程计算机(ENIAC),该计算机于1945年上电,由开关和转盘控制,并通过打孔卡将数据输入其中。它用于各种任务,例如帮助开发氢弹、设计风洞和预测天气。但是,它没有管理或存储数据。直到1960年代,才创建了真正的数据管理和处理系统或数据库。
尽管以前曾使用计算机来使人工记帐任务和复杂的控制系统自动化,但是直到1960年的半自动商业研究环境(SABRE)航空公司预订系统才是第一个真正的交易数据库系统。该系统可确保单次预订座位,到1964年该系统每天可处理80000多个电话。
当时,数据主要存储在分层(文档式)结构中。1970年,IBM的Edgar Codd撰写了一篇论文,描述了用于存储数据的关系系统,并展示了它不仅可以处理数据的创建、更新和删除,而且还可以用于查询数据。Codd的系统由代表实体(例如组织和人员)以及实体之间关系的表格组成。IBM开始了一个名为System R的研究项目,以实现Codd的愿景,并创建了结构化查询语言(SQL)作为用于处理数据的语言。
受Codd愿景的启发,加州大学伯克利分校的Eugene Wong和Michael Stonebraker创建了INTERactive Graphics REtrieval System(INGRES),这是第一个基于SQL的商业关系数据库管理系统(RDBMS),并作为源代码分发给了许多大学。
在1980年代,RDBMS变得越来越流行。INGRES产生了多种商业产品,包括Sybase,Microsoft SQL Server和NonStop SQL,而System R产生了IBM SQL/DS(后来的DB2)和Oracle数据库。这些数据库成为用于供应链、库存管理、客户关系以及其他资源的运营业务软件应用程序的存储和检索系统,这些系统打包为企业资源计划(ERP)系统。这些在线交易处理(OLTP)系统成为了行业的骨干。
出现了进一步的软件,可以分析、可视化和生成有关此数据的报告,并在1989年使用术语商业智能(BI)来描述来自业务对象,以及水晶报表等程序包。
与结构化、有限用户的运营业务系统相比,数百万个网站中数百万甚至数十亿人的交互生成的数据以不同的形式呈指数级增长。2003年,提出了数据的“三个V”(体积、速度和多样性)的概念,以表达网络引入的数据性质的变化。必须使用新技术来解决这一问题,Hadoop于2006年发明,是一种扩展这种新大数据范例的数据存储和分析的方法。
01批处理
数十年以来,这些数据大部分来自应用程序和网页中的人工输入以及一些自动化输入。由面向批处理的ETL系统提供的数据仓库为企业提供了分析功能。但是,在过去的十年左右的时间里,企业意识到机器数据,Web服务器,网络设备和其他系统生成的日志也可以提供价值。由越来越多的各种来源生成的这种新的非结构化数据,需要更新的大数据系统来处理它以及进行各种分析。
这两个浪潮都是由以下概念驱动的:存储便宜,大数据几乎无限,而CPU和内存昂贵。结果,数据从源到分析的移动和处理是分批完成的,主要是由ETL系统完成的。在需要实时操作的特定行业(例如设备自动化和算法交易)之外,真正的实时处理概念被视为昂贵、复杂且传统业务操作不必要。但是,在竞争激烈的现代业务目标的压力下,批处理正在崩溃,企业渴望及时获取最新信息的情况下,缩小了批处理窗口。
02竞争压力
世界各地的企业领导者必须权衡众多竞争压力,以找到最适合其业务的技术、体系结构和流程。尽管成本始终是一个问题,但是这需要与创新的收益进行衡量。还必须考虑失败的风险与现状。
这导致了技术周期,早期采用者有可能超越保守的同行,如果等待完全的技术成熟则可能无法追赶。近年来,这些周期的长度已大大缩短,以前稳健的商业模式已被有见识的竞争者或彻头彻尾的新来者打乱了。数据管理和分析不能免于这种趋势,而相关、准确和及时的数据的重要性日益增加,也增加了维持现状的风险。
业务部门着眼于数据现代化以解决以下问题:
- 我们如何在不中断业务流程的情况下迁移到可扩展的,具有成本效益的基础架构(如:云)?
- 我们如何管理数据量和速度的预期或实际增长?
- 我们如何在法规要求不断变化的环境中工作?
- 潜在破坏性技术(如人工智能(AI)、区块链、数字实验室和物联网(IoT))的影响和用例将是什么,我们如何将它们纳入其中?
- 我们如何减少分析的延迟,从而更快地提供业务见解并推动实时决策?
显然,普遍使用的传统方法和批处理方法可能无法解决这些问题,因此需要新的方向推动业务发展,但现实情况是,许多现有系统不能直接被淘汰掉,并以闪亮的新事物代替,否则可能会造成严重影响运营。
03数据的时间价值
关于“数据的时间价值”的论述很多,即数据价值在创建后会迅速下降。我们还可以从这个概念中推测,如果可以加快捕获,分析和处理该信息的过程,则对企业的价值将增加。
一条数据可以在其生命周期的前几秒钟内提供宝贵的价值,所以应该以流的方式快速处理它。但是,当同一数据随时间推移与数百万其他数据点一起存储和汇总时,它们也可以提供基本模型并进行历史分析。更妙的是,在某些情况下,如果没有历史或参考上下文,原始流数据几乎没有价值——实时数据毫无价值。
在某些情况下,数据价值会在很短的时间内降为零。如果您不立即采取行动,就会失去这样做的机会。最生动的例子是检测发电厂或飞机上的故障,以避免灾难性故障。但是,许多现代用例(例如预防,实时报价,实时资源分配和地理位置跟踪)也依赖于最新数据。
从历史上看,企业迁移到实时分析的成本一直高得让人望而却步,因此,只有这种真正极端的情况才能以这种方式处理。但是,最近对流式数据集成平台的介绍使这种处理更加容易实现。
理想的解决方案是从所有来源(包括数据库)收集数据,将其移入数据湖或可伸缩的云数据仓库(用于历史分析和建模),并提供对数据进行实时分析的功能。移动。从当前和历史的角度来看,这将使数据的时间价值最大化。
04实时处理的兴起
幸运的是,CPU和内存的价格已经变得更加可承受,而10年前不可思议的事情现在已经成为可能。流式数据集成使所有数据的实时内存流处理成为现实,并且它应该成为任何数据现代化计划的一部分,这无需一蹴而就,而是可以根据实际需求逐步更换现有系统。
企业今天要做的最重要的第一步是利用流式数据集成来朝着流优先的架构发展。在流优先架构中,所有数据均以实时,连续的方式收集。当然,公司不可能在一夜之间实现现代化。但是,进行连续、实时数据收集的能力使组织可以与旧技术集成。同时,他们可以从现代数据基础架构中受益,这些基础架构能够满足企业内不断增长的业务和技术需求。
在流式传输数据时,前面提到的问题的解决方案变得更易于管理。数据库更改流有助于在迁移到混合云架构时使云数据库与本地数据库保持同步。内存中边缘处理和分析可以扩展到海量数据,并用于从数据中提取信息内容。这样可以大大减少存储前的体积。具有自助服务分析功能的流系统可以帮助公司变得敏捷和敏捷,并且持续监控系统可以确保法规遵从性。当然,如果您拥有灵活的流数据分发机制(而不是单独的孤岛和数据存储),该机制为实时洞察提供低延迟功能,则集成起来的新技术将变得更加容易。
总而言之,数据现代化对于专注于运营效率,客户体验并获得竞争优势的企业变得至关重要。我们将详细介绍通过流式数据集成实现数据现代化,以帮助您了解如何将其应用于解决实际业务问题。