spark_字节宝

首页 / 技术

Spark 操作练习

# coding=utf-8from pyspark import SparkConf, SparkContextfrom pyspark import Rowfrom pyspark.sql import SparkSession# 初始化spark，生成一个sparkcontextsc = Spark...

2023-03-13

13

apache hudi 0.13.0版本重磅发布

Apache Hudi 0.13.0引入了一系列新特性，包括Metaserver, Change Data Capture, new Record Merge API, new sources for Deltastreamer等。虽然此版本不需要表版本升级，但希望用户在使用 0.13.0 版本之前按照下面的迁移...

spark 打包 flink 大数据

2023-03-07

15

pyspark streaming简介和消费 kafka示例

/spark/examples/src/main/python/streaming

spark jar Kafka Python socket编程

2023-03-06

16

如何三分钟部署好生产可用 Byzer

Byzer 提供了Docker，发型包，桌面版等各种部署方式，有的时候会让人乱花渐欲迷人眼，对新手而言会有不知所措。

spark 数据库 SQL xml linux

2023-03-01

12

YARN——队列内的优先级调度

具体来说就是：客户端向yarn提交任务时，可以指定任务的优先级。任务的优先级是一个正整数，值越大意味着任务的优先级越高；在容量调度的队列中，对任务按优先级进行排序，优先级越高的任务，会优先进行资源的分配。...

yarn Node.js spark xml

2023-02-28

14

腾讯云DLC(数据湖计算)重磅支持Apache Hudi

数据湖计算 DLC 通过类 SaaS 化的服务设计，为客户提供云原生企业级敏捷智能数据湖解决方案，具备以下特点：

数据湖数据处理数据湖计算DLC SQL spark

2023-02-28

18

Spark关键词

Application Spark的应用程序，包含一个Driver program和若干Executor

spark api Node.js

2023-02-25

12

Spark内核源码深度分析

• Application：基于Spark的用户程序，包含了一个driver program 和集群中多个的executor

2023-02-25

13

基于Direct的方式

这种新的不基于Receiver的直接方式，是在Spark 1.3中引入的，从而能够确保更加健壮的机制。替代掉使用Receiver来接收数据后，这种方式会周期性地查询Kafka，来获得每个topic+partition的最新的offset，从而定义每个batch的offs...

spark Kafka zookeeper api 编程算法

2023-02-25

17

Kafka基于Receiver的开发

基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的，然后Spark Streaming启动的job会去处理那...

Kafka spark bash bash指令编程算法

2023-02-25

15

6 7 8 9 10