最新 最热

Spark累加器(Accumulator)

累加器:分布式共享只写变量。(Executor和Executor之间不能读数据) 累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量,在Executor端的每个task都会得到这个变量的一份新的副本,每个task更新这些副...

2022-07-26
0

SparkSql之编程方式

SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext的组合,所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。

2022-07-26
0

Flink入门基础 – 简介

这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有 Hadoop、Storm,以及后来的 Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热...

2022-07-26
1

键值对操作

键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转化、装载)操作来将数据转化为键值对形式。键值对 RDD 提供了一些新的操作接口(比如统计每个产品的评论,将数据中键相同的分为一组,将两个不...

2022-07-23
1

当我们在聊「开源大数据调度系统Taier」的数据开发功能时,到底在讨论什么?

原文链接:当我们在聊「开源大数据调度系统 Taier」的数据开发功能时,到底在讨论什么?

2022-07-22
0

电商数据应用体系建设总结(三)—— 离线数据兜底方案

目前我们使用 Lambda 架构来处理数据,Flink 处理实时数据,Spark 处理离线数据。Spark 离线任务在每天凌晨的 0-8 点调度执行,在这段时间内,用户是看不到昨日未产出的离线数据的,数据应用对这些未产出的指标进行了特殊处理,...

2022-07-21
0

AI模型注册成MLSQL UDF函数示例

训练一个Tensorflow模型 下面的代码仅支持Console notebook模式下运行 首先,准备minist数据集 include lib.`github.com/allwefantasy/lib-core` where force="true" and libMirror="gitee.com"......

2022-07-21
0

让我们再探讨是【移动数据】还是【移动计算】

第一件事,是Spark 3.0 开始重构shuffle部分,用以支持remote shuffle。这意味着我们终于可以为shuffle专门准备一个存储集群了,比如一个单独的HDFS之类的。这是Spark架构前进的一小步,也是业界开始朝计算和存储分离走了坚...

2022-07-21
0

如何实现Spark过载保护

前言因为我司将Spark大规模按Service模式使用,也就是Spark实例大多数是7*24小时服务的,然后接受各种ad-hoc查询。通常最难受的就是被bad query 给拖死了,然后导致服务不可...

2022-07-21
0

Ray进程布局一览

可能标题有点让人困惑,其实我是想知道,在一个标准的ray集群,到底都有哪些进程存在。比如spark运行在yarn上,那么整个物理集群上会有如下几类进程:...

2022-07-21
1