最新 最热

分布式计算框架状态与容错的设计

对于一个分布式计算引擎(尤其是7*24小时不断运行的流处理系统)来说,由于机器故障、数据异常等原因导致作业失败的情况是时常发生的,因此一般的分布式计算引擎如Hadoop、Spark都会设计状态容错机制确保作业失败后能够恢复...

2021-04-16
0

cufflinks可视化包初探

不多说,先画一张再说.还是上文的环境.直接pip install,xxxxx,记得换源

2021-04-14
0

Apache Hudi 0.8.0版本重磅发布

自从Hudi 0.7.0版本支持Flink写入后,Hudi社区又进一步完善了Flink和Hudi的集成。包括重新设计性能更好、扩展性更好、基于Flink状态索引的写入Pipeline;支持Flink写入MOR表;Flink批量读取COW和MOR表;流式读取MOR表;同时支...

2021-04-13
0

Apache Flink 1.12.2集成Hudi 0.9.0运行指南

•下载Flink 1.12.2包:https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.12.2/flink-1.12.2-bin-scala_2.11.tgz•Hudi编译:https://github.com/apache/hudi•git clone ...

2021-04-13
0

Apache Hudi + Flink作业运行指南

近日Apache Hudi社区合并了Flink引擎的基础实现(HUDI-1327),这意味着 Hudi 开始支持 Flink 引擎。有很多小伙伴在交流群里咨询 Hudi on Flink 的使用姿势,三言两语不好描述,不如实操演示一把,于是有了这篇文章。...

2021-04-13
0

假期结束还没缓过神?Hudi on Flink最新进展了解下?

Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。...

2021-04-13
0

Apache Hudi在医疗大数据中的应用

本篇文章主要介绍Apache Hudi在医疗大数据中的应用,主要分为5个部分进行介绍:1. 建设背景,2. 为什么选择Hudi,3. Hudi数据同步,4. 存储类型选择及查询优化,5. 未来发展与思考。...

2021-04-13
1

Flink学习笔记(1) -- Flink入门介绍

Flink是一个分布式大数据计算引擎,可对有限流和无限流进行有状态的计算,支持Java API和Scala API、高吞吐量低延迟、支持事件处理和无序处理、支持一次且仅一次的容错担保、支持自动反压机制、兼容Hadoop、Storm、HDFS...

2021-04-13
0

Flink学习笔记(5) -- Flink 状态(State)管理与恢复

我们前面写的word count的例子,没有包含状态管理。如果一个task在处理过程中挂掉了,那么它在内存中的状态都会丢失,所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once),Flink引入了state...

2021-04-13
0

Flink学习笔记(4) -- Flink Broadcast & Accumulators & Counters &Distributed Cache

广播变量允许编程人员在每台机器上保持1个只读的缓存变量,而不是传送变量的副本给tasks;

2021-04-13
0