最新 最热

【大数据哔哔集20210108】Spark Shuffle 和 Hadoop Shuffle有什么异同?

Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。...

2021-01-26
1

代达罗斯之殇-大数据领域小文件问题解决攻略

海量小文件问题是工业界和学术界公认的难题,大数据领域中的小文件问题,也是一个非常棘手的问题,仅次于数据倾斜问题,对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案,给大家还原一...

2021-01-26
1

Spark SQL读写 ES7.x 及问题总结

ES官方提供了对spark的支持,可以直接通过spark读写es,具体可以参考ES Spark Support文档(https://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.html#spark)

2021-01-26
0

scala快速入门系列【泛型】

本篇作为scala快速入门系列的第三十五篇博客,为大家带来的是关于泛型的内容。

2021-01-26
1

Spark on K8S

Spark Standalone on Kubernetes (via k8s community) SPIP: SPARK-18278 https://github.com/apache-spark-on-k8s/spark (fork)

2021-01-26
1

0828-7.1.4-如何在CDP中通过Livy Thrift Server来提交Spark SQL作业

为什么CDH甚至最新的CDP中对于Spark SQL CLI或者JDBC/ODBC没有提供基于Spark Thrift Server的支持,参考Fayson之前的文章《0827-7.1.4-如何在CDP中使用Spark SQL CLI》,在CDP中,Cloudera给出了新的解决方案Livy Thrift S...

2021-01-26
1

scala快速入门系列【scala简介】

在scala专栏已经写过两篇博文,为大家详细地介绍了如何在windows上安装scala并与IDEA进行集成。

2021-01-26
1

大数据技术原理与应用之【Spark】习题

①Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活;

2021-01-26
1

大数据开发:Hive on Spark设计原则及架构

在Spark越来越受到主流市场青睐的大背景下,Hive作为Hadoop生态当中的数仓组件工具,在于Spark生态的配合当中,开始有了Hive on Spark的思路,那么具体是怎么实现的呢?今天的大数据开发分享,我们来讲讲Hive on Spark设计原则及...

2021-01-25
1

数据分析工具篇——HDFS原理解读

前面我们用几篇文章的时间整理了一下小数据集的情况下数据分析的常用工具,主要是为了梳理分析过程中的主线条,但是,随着数据的增加,pandas这样的数据结构只会越来越慢,取而代之的是hadoop和spark这种大数据环境下的分析工...

2021-01-25
0