最新 最热

大数据hadoop环境搭建

tar -zxvf jdk-8u91-linux-x64.tar.gz -C ~/app

2022-03-24
1

这20年,我“颠簸”在软件工程的列车上

世界格局在进入 21 世纪之后风云变幻,软件领域同样风起云涌。从硬件到软件,从单机到分布式,从孤岛到互联,程序员的创造力无比强大。但究其本质,软件工程和土木工程其实没有太大的区别,只不过一个是在码字母,一个是在码砖头。...

2022-03-24
1

SparkCore源码分析之RDD默认分区规则

仔细分析以上方法,发现我们的List在模式匹配中匹配到了_情况,所以核心逻辑在内层函数positions处封装:

2022-03-23
1

SparkConf 配置与传播

在spark分布式程序中,sparkConf 主要起着Spark程序进行资源配置,性能调优,功能开关,参数传递的能力。在Spark的Driver和Executor中都存在着SparkConf。

2022-03-23
1

Spark 存储行动算子源码解析

从源码可以看出saveAsHadoopFile的输入参数有path, key类型,value类型, 输出格式类型,hadoop配置,压缩类型。将输入的参数配置到JobConf中后,调用saveAsHadoopDataset。...

2022-03-23
1

Spark 创建算子源码解析

Spark创建方式可以通过集合进行创建,或者通过HDFS等存储文件创建,还可以基于其他算子进行转换操作。

2022-03-23
1

LinkedIn 数据分析技术栈的演进与实践

作者 | Steven Chuang、Qinyu Yue、Aravind Rao、Srihari Duddukuru

2022-03-23
1

大数据平台如何进行云原生改造

如今,企业都面临着日益增长的数据量、各种类型数据的实时化和智能化处理的需求。此时,云原生大数据平台的高弹性扩展、多租户资源管理、海量存储、异构数据类型处理及低成本计算分析的能力,受到了大家的欢迎。但企业应该...

2022-03-22
1

云原生时代的到来,Hive会被替代吗

Apache Hive 在 2010 年作为 Hadoop 生态系统的一个组成部分突然出现,当时 Hadoop 是进行大数据分析的新颖且创新的方式。

2022-03-22
1

Apache Flink 如何正确处理实时计算场景中的乱序数据

在谷歌发表了 GFS、BigTable、Google MapReduce 三篇论文后,大数据技术真正有了第一次飞跃,Hadoop 生态系统逐渐发展起来。

2022-03-17
1