spark_字节宝

首页 / 技术

17张图带你彻底理解Hudi Upsert原理

如果要深入了解Apache Hudi技术的应用或是性能调优，那么明白源码中的原理对我们会有很大的帮助。Upsert是Apache Hudi的核心功能之一，主要完成增量数据在HDFS/对象存储上的修改，并可以支持事务。而在Hive中修改数据需要...

数据库数据结构 SQL 编程算法 spark

2021-05-24

1

KIP-5：Apache Kylin深度集成Hudi

•Q1. What are you trying to do? Articulate your objectives using absolutely no jargon.•Q2. What prob

api 存储数据湖 spark

2021-05-24

6

使用Apache Pulsar + Hudi 构建Lakehouse方案了解下？

Lakehouse最早由Databricks公司提出，其可作为低成本、直接访问云存储并提供传统DBMS管系统性能和ACID事务、版本、审计、索引、缓存、查询优化的数据管理系统，Lakehouse结合数据湖和数据仓库的优点：包括数据湖的低成本存...

存储 apache 文件存储数据湖 spark

2021-05-24

6

Apache Hudi集成Spark SQL抢先体验

社区小伙伴一直期待的Hudi整合Spark SQL的[HUDI-1659](https://github.com/apache/hudi/pull/2645)正在积极Review中并已经快接近尾声，Hudi集成Spark SQL预计会在下个版本正式发布，在集成Spark SQL后，会极大方便用户对Hu...

SQL spark 数据分析

2021-05-24

4

我的程序员之路03：我和大数据

又是一年乍暖还寒，春天的风迎面而来，凉意中夹杂着些许温暖。哦，你知道，是春天来了。就像那年的实习期，在挥手告别的毕业季，定格在了那年的七月。...

大数据 hadoop spark scala

2021-05-20

6

RDD的几种创建方式

在RDD中，通常就代表和包含了Spark应用程序的输入源数据。当我们，在创建了初始的RDD之后，才可以通过Spark Core提供的transformation算子，对该RDD进行transformation(转换)操作，来获取其他的RDD。 Spark Core为我们提...

spark 大数据 hadoop 分布式文件存储

2021-05-14

4

Spark Core入门1【Spark集群安装、高可用、任务执行流程、使用Scala/Java/Lambda编写Spark WordCount】

Spark是一种快速、通用、可扩展的大数据分析引擎，包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目。

spark 大数据 shell api hadoop

2021-05-14

4

基于Akka模拟Spark中Master和Worker的通信过程

2、Master收到各Worker的注册信息后，会回复Worker已注册成功的信息

2021-05-14

1

spark学习（五）——分区数据

除非是在本地新建的list数组才需要使用parallelize。保存在hdfs中的文件，在使用spark处理的时候是默认分partition的。

2021-05-14

2

spark1.6学习（二）——独立的python程序运行pyspark

一般，我们在测试的时候可以使用pyspark进行简单的交互，但是在线上具体使用的程序，我们需要使用一个完整的pyspark程序的。

2021-05-14

2

100 101 102 103 104