什么是实时分析? 实时分析就是在数据生成后立即使用它来回答问题、做出预测、理解关系和自动化流程。 其定义为“将逻辑和数学应用于数据以提供洞察力以快速做出更好决策的学科。” 实时分析的核心需求是访问新鲜数据和快速查询,这本质上是延迟的两种衡量标准:数据延迟和查询延迟。
数据延迟: 数据延迟是衡量从数据生成到可查询的时间。在此过程中通常会有时间滞后,实时分析数据库旨在最大限度地减少这种滞后,从而快速反映数据的变化。
低数据延迟的交付可能具有挑战性,因为数据库必须能够写入传入数据,同时允许应用程序对最新数据进行查询。这意味着拥有一个可以处理高写入率并针对实时数据处理进行优化的数据库,而不是批处理分析作业,后者一直是用于分析的数据处理方法。
查询延迟: 查询延迟是执行查询并返回结果所需的时间。应用程序希望最大限度地减少查询延迟,以获得快速、响应迅速的用户体验,并且团队越来越多地为其数据应用程序设置亚秒级查询延迟标准。也就是说,处理数据和优化索引以提供始终如一的低查询延迟可能非常耗时,这使得团队难以迭代和扩展其分析功能。
实时与批量分析 实时分析针对低延迟分析进行了优化,并确保数据可在几秒钟内进行查询,而批处理是高延迟分析,其中查询返回至少几十分钟或几小时前的数据结果。
使用历史数据来报告业务趋势并回答战略问题。在这些场景中,目标是使用数据来制定策略;不立即采取行动。实时数据一般不会影响趋势分析的结果,更适合批量分析。商业智能、报告和数据科学等批量分析用例对延迟的要求不那么严格,因此可以容忍 ETL 管道对数据进行同质化和丰富以进行分析。相比之下,实时用例具有低延迟要求,并试图减少或消除对 ETL 过程的需求。
Hadoop 和数据仓库等许多分析系统都是为批处理分析而设计的。批量分析将其应用程序使用率提高了 350%。因此,应用程序洞察力嵌入到组织的日常决策中。
更快的决策制定: 如果您的数据的每个问题都需要几秒钟或几分钟才能返回,那么您就不会深入挖掘信息并更多地依赖直觉。
半自动化和自动化智能: 自动化或半自动化智能可以减少决策的认知负荷。
实时分析的增长 实时分析数据库已经成熟,使工程团队更容易访问流数据并实现低延迟分析。工程团队不再需要定制构建或自行管理复杂的分布式系统来实现实时分析。
支持实时分析采用率增长的最根本变化是云。公司可以扩展和缩减资源以满足不断变化的应用程序需求,避免在流量减慢时为过剩容量支付过高的费用。实时分析数据库还分离了存储和计算,因此您不再需要过度配置资源,从而在规模上实现更好的性价比。云提供了更高水平的操作简单性和资源效率,这将使更多公司在 2023 年能够进行实时分析。