最新 最热

一文学会MapReduce编程

MapReduce编程模型,相对于初学者来说,会有一些门槛,没关系,这一篇让你学会使用MapReduce进行分布式处理。

2021-01-06
0

Hive分桶一文读懂

但和分区不同的是,分区是将表拆分到不同的子目录中进行存储,而分桶是将表拆分到不同文件中进行存储。

2021-01-06
0

Hive常见的压缩格式

Hive支持的压缩格式有bzip2、gzip、deflate、snappy、lzo等。Hive依赖Hadoop的压缩方法,所以Hadoop版本越高支持的压缩方法越多,可以在$HADOOP_HOME/conf/core-site.xml中进行配置:...

2021-01-06
0

Hive全局排序解决之道

但在Hive中使用全局排序时,需要注意,Hive会将所有数据交给一个Reduce任务计算,实现查询结果的全局排序。所以如果数据量很大,只有一个Reduce会耗费大量时间。...

2021-01-06
0

一次Hadoop集群的资源死锁问题排查

该集群总共有569个Node Manger,总计Vcore数是27704个,总计内存是171T,资源比较丰富,属于重点生产集群,理论上足够任务运行。

2021-01-06
0

GNN教程:DGL框架实现GCN算法!

本文为GNN教程的第七篇文章【使用DGL框架实现GCN算法】。图神经网络的计算模式大致相似,节点的Embedding需要汇聚其邻接节点Embedding以更新,从线性代数的角度来看,这就是邻接矩阵和特征矩阵相乘。然而邻接矩阵通常都会...

2021-01-05
0

Stream流你学会了吗?

Steam流1. 创建Stream流的方式创建一个Stream流进行数据操作终止操作1.1 如何创建Stream流Collection提供的两个方法stream()和parallelStream()stream()流获取的是一个顺序流parallelstream()获取一个并行流Set<Stri...

2021-01-05
0

大数据技术体系梳理

来一起认识下大数据的技术框架有哪些,它们分别用于解决哪些问题?它们的内在逻辑和适用场景有哪些?OK,一起去探索下。

2021-01-05
1

大数据开发:MapReduce任务流程

作为Hadoop生态核心组件的MapReduce,是实现大数据计算处理的主要引擎,其核心思想是“分而治之”,简单来说就是分为Map和Reduce两个阶段。今天的大数据开发分享,我们主要来讲讲MapReduce具体的任务流程。...

2021-01-04
1

Python入门教程(三):史上最全的Numpy计算函数总结,建议收藏!

Numpy提供了灵活的、静态类型的、可编译的程序接口口来优化数组的计算,也被称作向量操作,因此在Python数据科学界Numpy显得尤为重要。Numpy的向量操作是通过通用函数实现的。今天小编会给大家较为全面地介绍下Numpy的通...

2020-12-30
0