最新 最热

昨天我面试了一个人

整体的感觉是,面试者对组件停留在会用层面,在一些简单的业务场景或者成熟的平台下开发完全没有问题,但是遇到难题恐怕难以解决。

2021-09-22
1

我们在学习Kafka的时候,到底在学习什么?

我在之前《Kafka源码阅读的一些小提示》写了一些关于Kafka源码阅读的注意事项。

2021-09-22
0

Saleforce 基于 Kotlin 构建数据管道的探索和实践

直到最近,我们都和许多公司一样在基于 Java 或 Scala 的那几种技术(包括 Apache Spark、Storm 和 Kafka)中选一种来构建我们的数据管道。但 Java 是一种非常冗长的语言,因此用 Java 编写这些管道时需要大量样板代码。例如...

2021-09-22
1

Spark必知必会 | Spark SQL自定义函数UDF、UDAF聚合函数以及开窗函数的使用

1、Spark SQL自定义函数就是可以通过scala写一个类,然后在SparkSession上注册一个函数并对应这个类,然后在SQL语句中就可以使用该函数了,首先定义UDF函数,那么创建一个SqlUdf类,并且继承UDF1或UDF2等等,UDF后边的数字表示了...

2021-09-18
0

Apache Spark 内存管理(堆内/堆外)详解

本文旨在梳理出Spark内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。...

2021-09-18
0

【硬刚大数据】从零到大数据专家面试篇之SparkSQL篇

Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等,制约了Spark各个组件之间的相互集成,因此Spark SQL应运而生。...

2021-09-18
1

腾讯云大数据技术介绍-数据查询弹性 MapReduce

上一节我们讲到了大数据的存储 : https://cloud.tencent.com/developer/article/1878422

2021-09-16
0

万字详解 Spark开发调优(建议收藏)

在大数据计算领域,Spark 已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark 的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广...

2021-09-16
0

Spark 性能常规性能调优广播大变量

默认情况下,task中的算子中如果使用了外部的变量,每个task都会获取一份变量的复本,这就造成了内存的极大消耗。一方面,如果后续对RDD进行持久化,可能就无法将RDD数据存入内存,只能写入磁盘,磁盘IO将会严重消耗性能;另一方面,ta...

2021-09-16
0

win10 安装 spark单机版(失败版)

书里面使用这个spark,我这里就配置一下(失败了。。。)

2021-09-14
0