最新 最热

【Java8新特性】知识点总结,你都会了吗?

作者个人研发的在高并发场景下,提供的简单、稳定、可扩展的延迟消息队列框架,具有精准的定时任务和延迟队列处理功能。自开源半年多以来,已成功为十几家中小型企业提供了精准定时调度方案,经受住了生产环境的考验。为使更...

2020-10-29
0

Python API 操作Hadoop hdfs详解

由于是windows环境(linux其实也一样),只要有pip或者setup_install安装起来都是很方便的

2020-10-29
0

【高并发】如何使用Java7中提供的Fork/Join框架实现高并发程序?

作者个人研发的在高并发场景下,提供的简单、稳定、可扩展的延迟消息队列框架,具有精准的定时任务和延迟队列处理功能。自开源半年多以来,已成功为十几家中小型企业提供了精准定时调度方案,经受住了生产环境的考验。为使更...

2020-10-29
0

Google AI负责人Jeff Dean在线对话大学生:「2020年非同寻常,但请依旧保持信仰」

Jeff Dean的大名可谓如雷贯耳,Jeff Dean就是谷歌技术的代名词,甚至说他改变了谷歌和互联网的发展也不为过。他的传奇「事迹」也是广为流传:

2020-10-29
1

Spark Streaming 快速入门系列(5) | 还不会DStream转换,一文带你深入了解

关于转换这方面的一些具体问题,如果想要了解可以点击下列网址进行查看: http://spark.apache.org/docs/2.1.1/streaming-programming-guide.html#transformations-on-dstreams

2020-10-28
0

Spark内核详解 (6) | Spark Shuffle 解析

在所有的 MapReduce 框架中, Shuffle 是连接 map 任务和 reduce 任务的桥梁. map 任务的中间输出要作为 reduce 任务的输入, 就必须经过 Shuffle, 所以 Shuffle 的性能的优劣直接决定了整个计算引擎的性能和吞吐量....

2020-10-28
0

Spark性能优化 (3) | Shuffle 调优

在 Spark 任务运行过程中,如果 shuffle 的map端处理的数据量比较大,但是map端缓冲的大小是固定的,可能会出现map端缓冲数据频繁spill溢写到磁盘文件中的情况,使得性能非常低下,通过调节map端缓冲的大小,可以避免频繁的磁盘 ...

2020-10-28
0

一文教你快速解决Spark数据倾斜!

Spark 中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。

2020-10-28
0

Spark 出现的问题及其解决方案

在Shuffle过程,reduce端task并不是等到map端task将其数据全部写入磁盘后再去拉取,而是map端写一点数据,reduce端task就会拉取一小部分数据,然后立即进行后面的聚合、算子函数的使用等操作。...

2020-10-28
1

HBase快速入门系列(7) | 官方HBase-MapReduce与自定义

1. 官方HBase-MapReduce1.查看HBase的MapReduce任务的执行[bigdata@hadoop002 hbase]$ bin/hbase mapredcp 上图标记处为

2020-10-28
1