最新 最热

Hive SQL优化思路

Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。

2021-12-27
1

Dlink 在 Hive 的实践

关于 dlink 连接 Hive 的步骤同 Flink 的 sql-client ,只不过它没有默认加载的配置文件。下文将详细讲述对 Hive 操作的全过程。

2021-12-27
1

主流的 OLAP 引擎介绍 - OLAP极简教程

随着互联网、物联网、5G、人工智能、云计算等技术的不断发展,越来越多的数据在互联网上产生,对互联网的运营也开始进入精细化,因此大数据、数据分析、数字营销开始变成每个互联网企业的重点。在做数据分析时有OLAP、OLTP...

2021-12-24
1

使用 Hive 炸裂函数 explode (map<string,string>) 宽表转高表

Hive 炸裂函数 explode(map<string,string>) 宽表转高表SQL:

2021-12-24
1

【最全的大数据面试系列】Hive面试题大全

1.倾斜原因:map 输出数据按 key Hash 的分配到 reduce 中,由于 key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的 reduce 上的数据量差异过大。...

2021-12-21
1

What are the types of sampling in hive ?

This recipe explains what are the types of sampling in hive.

2021-12-16
1

Hive Table Sampling – Concept and Example

The Relational databases like SQL server supports writing queries on a relatively small number of rows from the very large table. In this article, we will check...

2021-12-16
1

Hive的内置HASH()函数使用哪种哈希算法

我理想地是在寻找SHA512/SHA256哈希,类似于SHA()函数在Pig的linkedin datafu UDF中提供的功能。

2021-12-16
1

Hive SORT BY vs ORDER BY vs DISTRIBUTE BY vs CLUSTER BY

在这篇文章中,我们主要来了解一下 SORT BY,ORDER BY,DISTRIBUTE BY 和 CLUSTER BY 在 Hive 中的表现。

2021-12-16
1

算法岗机器学习相关问题整理(大数据部分)

MapReduce是apache公司开发的,基于该框架能够使应用程序能够运行在大规模集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce的思想就是“分而治之”,Mapper负责“分”,即把复杂的任务分...

2021-12-14
1