hive_字节宝

Hive 单节点部署

Hive 是一个建立在 Hadoop 之上的数据仓库工具，它用于提供数据的查询和分析功能。Hive 允许用户使用类似 SQL 的查询语言（HiveQL）来处理存储在 Hadoop 分布式文件系统（HDFS）上的大规模数据。...

hive

2024-08-11

Hive面试题持续更新【2023-07-07】

Hive是一个在Hadoop上构建的数据仓库基础架构，它提供了一种类似于SQL的查询语言，称为HiveQL，用于处理和分析大规模的结构化数据。Hive的体系架构主要包括以下几个组件：...

函数排序数据存储 hive

2024-07-25

【Spark数仓项目】需求八：MySQL的DataX全量导入和增量导入Hive

本需求将模拟从MySQL中向Hive数仓中导入数据，数据以时间分区。测试两种导入场景，一种是将数据全量导入，即包含所有时间分区；另一种是每天运行调度，仅导入当天时间分区中的用户数据。...

脚本数据 spark hive MySQL

2024-07-25

Hive 中 sort by 和 order by 的区别

在 Hive 中， SORT BY 和 ORDER BY 都用于对查询结果进行排序，但它们在实现方式和适用场景上有一些区别。

sort 内存排序数据 hive

2024-07-25

基于MapReduce的Hive数据倾斜场景以及调优方案

通常认为当所有的map task全部完成，并且99%的reduce task完成，只剩下一个或者少数几个reduce task一直在执行，这种情况下一般都是发生了数据倾斜。

优化 mapreduce hive 连接数据

2024-07-25

Hive中Join优化的几种算法

Common Join 是最稳定且默认的Join算法，通过 MR Job 完成 Join 。

join 内存算法优化 hive

2024-07-25

使用Python创建faker实例生成csv大数据测试文件并导入Hive数仓

这段代码使用Faker库生成模拟的个人信息数据，每个CSV文件包含一定数量的行数据，数据字段包括 Rowkey, Name, Age, Email, Address, IDNumber, PhoneNumber, Nationality, Region, SourceCode。...

hive 大数据 csv 测试 Python

2024-07-25

Hive跨集群数据迁移过程

本次迁移数据100G，15亿条，数据流转方向从集群A经过跳转机到集群B，通过HDFS拉取和重新建表导入的方式完成数据库迁移。

数据迁移 hive 迁移集群存储

2024-07-25

Hive中parquet压缩格式分区表的跨集群迁移记录

从华为A集群中将我们的数据迁移到华为B集群，其中数据经过华为集群管理机local跳转。

迁移 parquet 集群压缩 hive

2024-07-25

Hive表加工为知识图谱实体关系表标准化流程

加工原则是从Hive的原数据表中抽取出导图所用的实体和关系字段，包括重要的属性描述字段，最后导入图数据库。

存储 hive 数据图数据库知识图谱

2024-07-25

1 2 3 4 5

Hive 单节点部署

Hive面试题持续更新【2023-07-07】

【Spark数仓项目】需求八：MySQL的DataX全量导入和增量导入Hive

Hive 中 sort by 和 order by 的区别

基于MapReduce的Hive数据倾斜场景以及调优方案

Hive中Join优化的几种算法

使用Python创建faker实例生成csv大数据测试文件并导入Hive数仓

Hive跨集群数据迁移过程

Hive中parquet压缩格式分区表的跨集群迁移记录

Hive表加工为知识图谱实体关系表标准化流程

热门文章

热门手册