最新 最热

大数据开发:Spark Structured Streaming特性

在Spark框架当中,早期的设计由Spark Streaming来负责实现流计算,但是随着现实需求的发展变化,Spark streaming的局限也显露了出来,于是Spark团队又设计了Spark Structured Streaming。今天的大数据开发学习分享,我们就主要...

2021-07-30
1

在所有Spark模块中,我愿称SparkSQL为最强!

我们之前已经学习过了《我们在学习Spark的时候,到底在学习什么?》,这其中有一个关于SQL的重要模块:SparkSQL。

2021-07-30
1

当我们在学习Hive的时候在学习什么?「硬刚Hive续集」

我在之前的硬刚系列《大数据方向另一个十年开启 |《硬刚系列》第一版完结》中写过一个《硬刚Hive | 4万字基础调优面试小总结》,这个小结里基本涵盖了你所看过的关于Hive的常见的知识和面试八股文。...

2021-07-30
1

大数据开发:Spark运行原理

在大数据的诸多技术框架当中,Spark发展至今,已经得到了广泛的认可。Hadoop与Spark可以说是大部分企业级数据平台的主流选择,基于不同的应用场景,结合实际需求,来选择相应的技术架构。今天我们来聊聊Spark运行原理。...

2021-07-29
1

Spark 闭包(Task not serializable)问题分析及解决

在编写Spark程序中,由于在map等算子内部使用了外部定义的变量和函数,从而引发Task未序列化问题。然而,Spark算子在计算过程中使用外部变量在许多情形下确实在所难免,比如在filter算子根据外部指定的条件进行过滤,map根据相...

2021-07-29
1

RNA-seq数据分析完全指北-10:gatk找突变

如果有读者仔细看过RNA-seq结题报告,就会发现在定量分析以外通常还会有SNP和INDEL分析。目前,对人类测序数据找突变最常用的软件是GATK,除了速度慢以外,没有其他明显缺点(可以通过部署Spark提高速度;当然,如果有钱,可以购买Se...

2021-07-29
1

大数据开发:Spark核心概念RDD入门

Spark在大数据处理上的优势,很大一部分来自数据处理速度的提升,这使得Spark在面对大规模实时计算的数据任务时,能够更快地完成大批量数据的处理,提升大数据处理的效率。而Spark获得的这些优势,核心关键在于RDD,今天我们为大...

2021-07-28
1

0856-7.1.4-如何使用spark-shell操作Kudu表

Kudu从 1.0.0 版本开始通过Data Source API与Spark 集成。kudu-spark使用--packages选项包含依赖项。如果将Spark与Scala 2.10 一起使用,需要使用 kudu-spark_2.10 。从 Kudu1.6.0开始不再支持Spark 1,如果要使用Spark1...

2021-07-28
1

Flink会取代Spark吗?谈谈大数据框架之间的竞争

在大数据计算领域,先后出现了Hadoop、Spark、Storm、Flink等多个计算框架,并且每每当一个新兴计算引擎出现,大家就忍不住拿来与早期的计算引擎进行对比。然后就会出现诸如Flink会取代Spark吗,Flink和Spark哪个好等等的问...

2021-07-27
1

FAQ系列之Kafka

“流媒体”:发布者(“生产者”)经常发送的大量消息(想想数万或数十万)。许多订阅者(“消费者”)经常进行消息轮询。

2021-07-27
1