spark_字节宝

Spark累加器（Accumulator）

累加器：分布式共享只写变量。（Executor和Executor之间不能读数据）累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量，在Executor端的每个task都会得到这个变量的一份新的副本，每个task更新这些副...

编程算法 spark

2022-07-26

SparkSql之编程方式

SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的组合，所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。

Python 编程算法 SQL spark hive

2022-07-26

Flink入门基础 – 简介

这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有 Hadoop、Storm，以及后来的 Spark，他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河，也以内存为赌注，赢得了内存计算的飞速发展。Spark 的火热...

大数据 flink hadoop spark apache

2022-07-26

键值对操作

键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转化、装载)操作来将数据转化为键值对形式。键值对 RDD 提供了一些新的操作接口(比如统计每个产品的评论,将数据中键相同的分为一组,将两个不...

spark 编程算法 scala Python

2022-07-23

当我们在聊「开源大数据调度系统Taier」的数据开发功能时，到底在讨论什么？

原文链接：当我们在聊「开源大数据调度系统 Taier」的数据开发功能时，到底在讨论什么？

SQL hive spark 数据库开源

2022-07-22

电商数据应用体系建设总结（三）—— 离线数据兜底方案

目前我们使用 Lambda 架构来处理数据，Flink 处理实时数据，Spark 处理离线数据。Spark 离线任务在每天凌晨的 0-8 点调度执行，在这段时间内，用户是看不到昨日未产出的离线数据的，数据应用对这些未产出的指标进行了特殊处理，...

数据处理 hive spark Serverless

2022-07-21

AI模型注册成MLSQL UDF函数示例

训练一个Tensorflow模型下面的代码仅支持Console notebook模式下运行首先，准备minist数据集 include lib.`github.com/allwefantasy/lib-core` where force="true" and libMirror="gitee.com"......

SQL spark

2022-07-21

让我们再探讨是【移动数据】还是【移动计算】

第一件事，是Spark 3.0 开始重构shuffle部分，用以支持remote shuffle。这意味着我们终于可以为shuffle专门准备一个存储集群了，比如一个单独的HDFS之类的。这是Spark架构前进的一小步，也是业界开始朝计算和存储分离走了坚...

spark 大数据 SQL 存储文件存储

2022-07-21

如何实现Spark过载保护

前言因为我司将Spark大规模按Service模式使用，也就是Spark实例大多数是7*24小时服务的，然后接受各种ad-hoc查询。通常最难受的就是被bad query 给拖死了，然后导致服务不可...

linux spark

2022-07-21

Ray进程布局一览

可能标题有点让人困惑，其实我是想知道，在一个标准的ray集群，到底都有哪些进程存在。比如spark运行在yarn上，那么整个物理集群上会有如下几类进程：...

云数据库Redis Python spark yarn Java

2022-07-21

34 35 36 37 38

Spark累加器（Accumulator）

SparkSql之编程方式

Flink入门基础 – 简介

键值对操作

当我们在聊「开源大数据调度系统Taier」的数据开发功能时，到底在讨论什么？

电商数据应用体系建设总结（三）—— 离线数据兜底方案

AI模型注册成MLSQL UDF函数示例

让我们再探讨是【移动数据】还是【移动计算】

如何实现Spark过载保护

Ray进程布局一览

热门文章

热门手册