最新 最热

Spark Streaming + Canal + Kafka打造Mysql增量数据实时进行监测分析

Spark中的Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据。...

2021-04-21
1

基于 Spark 技术快速构建数仓项目

大家好,我是一哥,今天给大家分享下如何使用Spark从无到有搭建一个数仓项目。数据仓库解决了什么业务问题,它和传统数据库的区别是什么? 对数据仓库的基础架构有大致的了解。 使用 Spark 可...

2021-04-20
0

spark从hbase读数据到存入hbase数据两种版本写法

spark2版本:object SparkCoreTest { def main(args: Array[String]): Unit = { // 使用sparksession来创建对象 val sparkConf: SparkConf = new SparkConf().setMaster("...

2021-04-19
0

基于Apache Spark 3.1.1的CDS 3.1正式GA

基于Apache Spark 3.1.1的CDS 3.1在CDP Private Cloud Base 7.1.6上正式发布,这是CDS 3的小版本更新发布,主要改进包括:

2021-04-19
0

我的 Spark 3.1.1 之旅【收藏夹吃灰系列】

如今使用 CDH( Cloudera Distribution Hadoop) 部署 Hadoop 成了业界常规,为什么还要费劲自己动手呢?这不浪费时间嘛!

2021-04-19
1

CDP通过支持谷歌云扩展了混合云的支持

CDP Public Cloud现在可以在Google Cloud上使用。对Google Cloud的额外支持使Cloudera能够兑现其在全球范围内提供其企业数据平台的承诺。CDP公共云已在Amazon Web Services和Microsoft Azure上提供。通过添加Google ...

2021-04-16
1

分布式计算框架状态与容错的设计

对于一个分布式计算引擎(尤其是7*24小时不断运行的流处理系统)来说,由于机器故障、数据异常等原因导致作业失败的情况是时常发生的,因此一般的分布式计算引擎如Hadoop、Spark都会设计状态容错机制确保作业失败后能够恢复...

2021-04-16
0

Apache Hudi 0.7.0版本重磅发布

0.7.0版本中支持了对Hudi表数据进行Clustering(对数据按照数据特征进行聚簇,以便优化文件大小和数据布局),Clustering提供了更灵活地方式增加文件大小,有了Clustering特性,便可更快速地摄取数据,然后聚簇为更大的文件,实验数...

2021-04-13
1

最佳实践 | 通过Apache Hudi和Alluxio建设高性能数据湖

T3出行的杨华和张永旭描述了他们数据湖架构的发展。该架构使用了众多开源技术,包括Apache Hudi和Alluxio。在本文中,您将看到我们如何使用Hudi和Alluxio将数据摄取时间缩短一半。此外,数据分析人员如何使用Presto、Hudi...

2021-04-13
1

假期结束还没缓过神?Hudi on Flink最新进展了解下?

Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。...

2021-04-13
0