最新 最热

坚持贡献10年,他在开源领域做到了国际顶尖

从技术小白成长为有着Apache member、Apache spark PMC、Apache Livy PPMC等头衔的国际顶级开源大牛,邵赛赛用了十年。 在回答是什么让这位鹅厂技术大牛十年如一日贡献开源时候,他的回答是“爱和坚持”。 刚接触Apache...

2022-02-24
1

客快物流大数据项目(四十七):Spark操作Kudu Native RDD

目录Spark操作Kudu Native RDDSpark操作Kudu Native RDD

2022-02-24
1

客快物流大数据项目(四十六):Spark操作Kudu dataFrame操作kudu

虽然我们可以通过上面显示的KuduContext执行大量操作,但我们还可以直接从默认数据源本身调用读/写API。要设置读取,我们需要为Kudu表指定选项,命名我们要读取的表以及为表提供服务的Kudu集群的Kudu主服务器列表。...

2022-02-24
1

客快物流大数据项目(四十五):Spark操作Kudu DML操作

Kudu支持许多DML类型的操作,其中一些操作包含在Spark on Kudu集成. 包括:

2022-02-24
1

客快物流大数据项目(四十四):Spark操作Kudu创建表

定义表时要注意的是Kudu表选项值。你会注意到在指定组成范围分区列的列名列表时我们调用“asJava”方 法。这是因为在这里,我们调用了Kudu Java客户端本身,它需要Java对象(即java.util.List)而不是Scala的List对 象;(要使“...

2022-02-24
1

Flink和Spark读写avro文件

前面文章基于Java实现Avro文件读写功能我们说到如何使用java读写avro文件,本文基于上述文章进行扩展,展示flink和spark如何读取avro文件。

2022-02-24
1

用户画像标签系统体系解释

1)、标签数据 标签管理平台中,每个标签开发时,首先需要在管理平台上注册(新建标签:4级标签和5级标签) 业务标签和属性标签 业务标签对应标签模型,每个标签模型就是Spark Application,运行程序可以给用户打上标签:TagName 模型...

2022-02-24
1

Kunpeng BoostKit 使能套件:大数据场景如何实现“大鹏一日同风起”倍级性能提升?

在数据和经济时代,业务和数据的多样性需要新的计算架构,海量的数据增长也带来了更高的计算需求。那么在这个过程中,鲲鹏计算产业也正在成为更多计算场景的新一代 IP 基座。基于华为鲲鹏处理器构建的鲲鹏全栈 IT 技术实施...

2022-02-18
1

Spark Day06:Spark Core之Spark 内核调度和SparkSQL快速入门

ShuffleMapTask要进行Shuffle,ResultTask负责返回计算结果,一个Job中只有最后的Stage采用ResultTask,其他的均为ShuffleMapTask。

2022-02-17
1

Spark Day05:Spark Core之Sougou日志分析、外部数据源和共享变量

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sRu202yb-1644834575572)(/img/image-20210423150750606.png)]

2022-02-17
1