最新 最热

17张图带你彻底理解Hudi Upsert原理

如果要深入了解Apache Hudi技术的应用或是性能调优,那么明白源码中的原理对我们会有很大的帮助。Upsert是Apache Hudi的核心功能之一,主要完成增量数据在HDFS/对象存储上的修改,并可以支持事务。而在Hive中修改数据需要...

2021-05-24
1

KIP-5:Apache Kylin深度集成Hudi

•Q1. What are you trying to do? Articulate your objectives using absolutely no jargon.•Q2. What prob

2021-05-24
1

使用Apache Pulsar + Hudi 构建Lakehouse方案了解下?

Lakehouse最早由Databricks公司提出,其可作为低成本、直接访问云存储并提供传统DBMS管系统性能和ACID事务、版本、审计、索引、缓存、查询优化的数据管理系统,Lakehouse结合数据湖和数据仓库的优点:包括数据湖的低成本存...

2021-05-24
1

Apache Hudi集成Spark SQL抢先体验

社区小伙伴一直期待的Hudi整合Spark SQL的[HUDI-1659](https://github.com/apache/hudi/pull/2645)正在积极Review中并已经快接近尾声,Hudi集成Spark SQL预计会在下个版本正式发布,在集成Spark SQL后,会极大方便用户对Hu...

2021-05-24
1

我的程序员之路03:我和大数据

又是一年乍暖还寒,春天的风迎面而来,凉意中夹杂着些许温暖。哦,你知道,是春天来了。就像那年的实习期,在挥手告别的毕业季,定格在了那年的七月。...

2021-05-20
1

RDD的几种创建方式

在RDD中,通常就代表和包含了Spark应用程序的输入源数据。  当我们,在创建了初始的RDD之后,才可以通过Spark Core提供的transformation算子,对该RDD进行transformation(转换)操作,来获取其他的RDD。  Spark Core为我们提...

2021-05-14
1

Spark Core入门1【Spark集群安装、高可用、任务执行流程、使用Scala/Java/Lambda编写Spark WordCount】

Spark是一种快速、通用、可扩展的大数据分析引擎,包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目。

2021-05-14
1

基于Akka模拟Spark中Master和Worker的通信过程

2、Master收到各Worker的注册信息后,会回复Worker已注册成功的信息

2021-05-14
1

spark学习(五)——分区数据

除非是在本地新建的list数组才需要使用parallelize。保存在hdfs中的文件,在使用spark处理的时候是默认分partition的。

2021-05-14
1

spark1.6学习(二)——独立的python程序运行pyspark

一般,我们在测试的时候可以使用pyspark进行简单的交互,但是在线上具体使用的程序,我们需要使用一个完整的pyspark程序的。

2021-05-14
1