spark_字节宝

昨天我面试了一个人

整体的感觉是，面试者对组件停留在会用层面，在一些简单的业务场景或者成熟的平台下开发完全没有问题，但是遇到难题恐怕难以解决。

spark 任务调度编程算法

2021-09-22

我们在学习Kafka的时候，到底在学习什么？

我在之前《Kafka源码阅读的一些小提示》写了一些关于Kafka源码阅读的注意事项。

Kafka Node.js 分布式 spark 面向对象编程

2021-09-22

Saleforce 基于 Kotlin 构建数据管道的探索和实践

直到最近，我们都和许多公司一样在基于 Java 或 Scala 的那几种技术（包括 Apache Spark、Storm 和 Kafka）中选一种来构建我们的数据管道。但 Java 是一种非常冗长的语言，因此用 Java 编写这些管道时需要大量样板代码。例如...

kotlin Java bash spark 大数据

2021-09-22

Spark必知必会 | Spark SQL自定义函数UDF、UDAF聚合函数以及开窗函数的使用

1、Spark SQL自定义函数就是可以通过scala写一个类，然后在SparkSession上注册一个函数并对应这个类，然后在SQL语句中就可以使用该函数了，首先定义UDF函数，那么创建一个SqlUdf类，并且继承UDF1或UDF2等等，UDF后边的数字表示了...

SQL spark

2021-09-18

Apache Spark 内存管理(堆内/堆外)详解

本文旨在梳理出Spark内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。...

文件存储存储 jvm 缓存 spark

2021-09-18

【硬刚大数据】从零到大数据专家面试篇之SparkSQL篇

Spark SQL是一个用来处理结构化数据的Spark组件，前身是shark，但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等，制约了Spark各个组件之间的相互集成，因此Spark SQL应运而生。...

云数据库SQLServer SQL spark 数据库 hive

2021-09-18

腾讯云大数据技术介绍-数据查询弹性 MapReduce

上一节我们讲到了大数据的存储： https://cloud.tencent.com/developer/article/1878422

mapreduce 弹性MapReduce hadoop https spark

2021-09-16

万字详解 Spark开发调优（建议收藏）

在大数据计算领域，Spark 已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark 的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广...

spark 文件存储数据库大数据数据结构

2021-09-16

Spark 性能常规性能调优广播大变量

默认情况下，task中的算子中如果使用了外部的变量，每个task都会获取一份变量的复本，这就造成了内存的极大消耗。一方面，如果后续对RDD进行持久化，可能就无法将RDD数据存入内存，只能写入磁盘，磁盘IO将会严重消耗性能；另一方面，ta...

大数据 spark

2021-09-16

win10 安装 spark单机版（失败版）

书里面使用这个spark，我这里就配置一下（失败了。。。）

spark

2021-09-14

86 87 88 89 90

昨天我面试了一个人

我们在学习Kafka的时候，到底在学习什么？

Saleforce 基于 Kotlin 构建数据管道的探索和实践

Spark必知必会 | Spark SQL自定义函数UDF、UDAF聚合函数以及开窗函数的使用

Apache Spark 内存管理(堆内/堆外)详解

【硬刚大数据】从零到大数据专家面试篇之SparkSQL篇

腾讯云大数据技术介绍-数据查询弹性 MapReduce

万字详解 Spark开发调优（建议收藏）

Spark 性能常规性能调优广播大变量

win10 安装 spark单机版（失败版）

热门文章

热门手册