最新 最热

Hive 单节点部署

Hive 是一个建立在 Hadoop 之上的数据仓库工具,它用于提供数据的查询和分析功能。Hive 允许用户使用类似 SQL 的查询语言(HiveQL)来处理存储在 Hadoop 分布式文件系统(HDFS)上的大规模数据。...

2024-08-11
1

Hive面试题持续更新【2023-07-07】

Hive是一个在Hadoop上构建的数据仓库基础架构,它提供了一种类似于SQL的查询语言,称为HiveQL,用于处理和分析大规模的结构化数据。Hive的体系架构主要包括以下几个组件:...

2024-07-25
1

【Spark数仓项目】需求八:MySQL的DataX全量导入和增量导入Hive

本需求将模拟从MySQL中向Hive数仓中导入数据,数据以时间分区。测试两种导入场景,一种是将数据全量导入,即包含所有时间分区;另一种是每天运行调度,仅导入当天时间分区中的用户数据。...

2024-07-25
2

Hive 中 sort by 和 order by 的区别

在 Hive 中, SORT BY 和 ORDER BY 都用于对查询结果进行排序,但它们在实现方式和适用场景上有一些区别。

2024-07-25
3

基于MapReduce的Hive数据倾斜场景以及调优方案

通常认为当所有的map task全部完成,并且99%的reduce task完成,只剩下一个或者少数几个reduce task一直在执行,这种情况下一般都是发生了数据倾斜。

2024-07-25
3

Hive中Join优化的几种算法

Common Join 是最稳定且默认的Join算法,通过 MR Job 完成 Join 。

2024-07-25
5

使用Python创建faker实例生成csv大数据测试文件并导入Hive数仓

这段代码使用Faker库生成模拟的个人信息数据,每个CSV文件包含一定数量的行数据,数据字段包括 Rowkey, Name, Age, Email, Address, IDNumber, PhoneNumber, Nationality, Region, SourceCode。...

2024-07-25
6

Hive跨集群数据迁移过程

本次迁移数据100G,15亿条,数据流转方向从集群A经过跳转机到集群B,通过HDFS拉取和重新建表导入的方式完成数据库迁移。

2024-07-25
5

Hive中parquet压缩格式分区表的跨集群迁移记录

从华为A集群中将我们的数据迁移到华为B集群,其中数据经过华为集群管理机local跳转。

2024-07-25
5

Hive表加工为知识图谱实体关系表标准化流程

加工原则是从Hive的原数据表中抽取出导图所用的实体和关系字段,包括重要的属性描述字段,最后导入图数据库。

2024-07-25
5