GitHub源码(https://github.com/echo9509/flink-learning)
流处理就是我们对流动的数据(无限的数据)进行处理,通常我们会提前设置好算子(也就是你的处理逻辑),当数据到达后对数据进行处理。
作者本人之所以写Flink是因为最近在做一些实时监控的东西,需要对数据流进行实时处理并计算然后投递到后续的存储,因此最近一段时间会持续研究Flink和监控的一些东西,也希望有Flink开发经验、监控系统开发经验的或对其感...
Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低...
2019-2021 人人都提数据中台,张口就说业务数据化、数据业务化,数据驱动业务,甚至数据重塑业务;如今大家又与时俱进开始侃侃而谈数据化转型。在我们讨论数据化转型、数据中台、数据云时候都离不开一个稳定可持续迭代的数据...
Hadoop是Apache基金会旗下最知名的基础架构开源项目之一。自2006年诞生以来,逐步发展成为海量数据存储、处理最为重要的基础组件,形成了非常丰富的技术生态。...
嵌入式分析是使任何应用程序或用户更容易获得数据分析和商业智能的技术。 商业智能是通过分析业务数据辅助决策获取数据背后的 0信息。 商业智能软件和技术包含了报表查询,OLAP,数据挖掘及高级数据分析,最终用户自助分析...
传统的架构方法是在服务之间共享一个数据库,而微服务却与之相反,每个微服务都拥有独立、自主、专门的数据存储。微服务数据存储是基础设施构建的重点,因为它提供服务解耦、数据存储自主性、小型化开发、测试设置等特性,有...
本文将首先介绍 Spark AQE SkewedJoin 的基本原理以及字节跳动在使用 AQE SkewedJoin 的实践中遇到的一些问题;其次介绍针对遇到的问题所做的相关优化和功能增强,以及相关优化在字节跳动的收益;此外,我们还将分享 SkewedJ...
使用flink kubernetes operator创建flink任务,将flink日志通过sidecar方式发送到es相关配置