最新 最热

一文聊透Apache Hudi的索引设计与应用

Apache Hudi索引在数据读和写的过程中都有应用。读的过程主要是查询引擎利用MetaDataTable使用索引进行Data Skipping以提高查找速度;写的过程主要应用在upsert写上,即利用索引查找该纪录是新增(I)还是更新(U),以提高写入...

2022-12-09
0

Flink入门——DataSet Api编程指南

Apache Flink 是一个兼顾高吞吐、低延迟、高性能的分布式处理框架。在实时计算崛起的今天,Flink正在飞速发展。由于性能的优势和兼顾批处理,流处理的特性,Flink可能正在颠覆整个大数据的生态。...

2022-12-09
0

Lightflus:云原生流计算框架,Demo 版本正式发布!

Hi all,这是我首次在腾讯云开发者上发文章,先简单介绍下我自己吧,我叫 Jason Thon,魔都一枚小开发,喜欢撸猫撸狗打电玩,练习时长两年半,擅长各种 Bug 制作技巧与 Debug 手艺。...

2022-12-05
1

Fluentd采集报错“no patterns matched tag=xxx”

修改了多source到多output时,发现Fluentd采集不到原来的某些pod的日志,并报错如下:

2022-12-05
0

Flink反压原理深入浅出及解决思路

Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速计算。既然是对流式数据进行处理,那么就要面临数据在流动计算时,上...

2022-12-05
0

Flink写入数据到Hudi数据湖的各种方式

主要用于数据初始化导入。Bulk Insert不会进行数据去重,需要用户在数据插入前进行数据去重

2022-12-05
0

Flink控制任务调度:作业链与处理槽共享组(SlotSharingGroup)

为了实现并行执行,Flink应用会将算子划分为不同任务,然后将这些任务分配到集群中的不同进程上去执行。和很多其他分布式系统一样,Flink应用的性能很大程度上取决于任务的调度方式。任务被分配到的工作进程、任务间的共存...

2022-12-05
0

使用 NiFi、Kafka、Flink 和 DataFlow 进行简单的信用卡欺诈检测

随着越来越多的人呆在家里,让我们的信用卡代步,网上购物正在兴起。不幸的是,与这一趋势保持同步的是信用卡欺诈的增加。

2022-12-02
0

通过 Flink SQL 使用 Hive 表丰富流

流处理是通过在数据运动时对数据应用逻辑来创造商业价值。很多时候,这涉及组合数据源以丰富数据流。Flink SQL 执行此操作并将您应用于数据的任何函数的结果定向到接收器中。业务用例,例如欺诈检测、广告印象跟踪、医疗...

2022-12-02
1

Cloudera 流处理社区版(CSP-CE)入门

Cloudera 在为流处理提供综合解决方案方面有着良好的记录。Cloudera 流处理 (CSP) 由 Apache Flink 和 Apache Kafka 提供支持,提供完整的流管理和有状态处理解决方案。在 CSP 中,Kafka 作为存储流媒体底层,Flink 作为核...

2022-12-02
0