最新 最热

Spark 操作练习

# coding=utf-8from pyspark import SparkConf, SparkContextfrom pyspark import Rowfrom pyspark.sql import SparkSession# 初始化spark,生成一个sparkcontextsc = Spark...

2023-03-13
1

apache hudi 0.13.0版本重磅发布

Apache Hudi 0.13.0引入了一系列新特性,包括Metaserver, Change Data Capture, new Record Merge API, new sources for Deltastreamer等。虽然此版本不需要表版本升级,但希望用户在使用 0.13.0 版本之前按照下面的迁移...

2023-03-07
2

pyspark streaming简介 和 消费 kafka示例

/spark/examples/src/main/python/streaming

2023-03-06
3

如何三分钟部署好生产可用 Byzer

Byzer 提供了Docker,发型包,桌面版等各种部署方式,有的时候会让人乱花渐欲迷人眼,对新手而言会有不知所措。

2023-03-01
1

YARN——队列内的优先级调度

具体来说就是:客户端向yarn提交任务时,可以指定任务的优先级。任务的优先级是一个正整数,值越大意味着任务的优先级越高;在容量调度的队列中,对任务按优先级进行排序,优先级越高的任务,会优先进行资源的分配。...

2023-02-28
2

腾讯云DLC(数据湖计算)重磅支持Apache Hudi

数据湖计算 DLC 通过类 SaaS 化的服务设计,为客户提供云原生企业级敏捷智能数据湖解决方案,具备以下特点:

2023-02-28
5

Spark关键词

Application Spark的应用程序,包含一个Driver program和若干Executor

2023-02-25
1

Spark内核源码深度分析

• Application: 基于Spark的用户程序,包含了一个driver program 和 集群中多个的executor

2023-02-25
1

基于Direct的方式

这种新的不基于Receiver的直接方式,是在Spark 1.3中引入的,从而能够确保更加健壮的机制。替代掉使用Receiver来接收数据后,这种方式会周期性地查询Kafka,来获得每个topic+partition的最新的offset,从而定义每个batch的offs...

2023-02-25
2

Kafka基于Receiver的开发

基于Receiver的方式 这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处理那...

2023-02-25
3