最新 最热

基于Ubuntu Hadoop的群集搭建Hive

Hive是Hadoop生态中的一个重要组成部分,主要用于数据仓库。前面的文章中我们已经搭建好了Hadoop的群集,下面我们在这个群集上再搭建Hive的群集。

2022-06-16
1

3万字史诗级 Hive 性能调优(建议收藏)

Hive 作为大数据领域常用的数据仓库组件,在平时设计和查询的时候要特别注意效率 。影响 Hive 效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、Job或I/O过多、MapReduce 分配不合理等等。 对Hive 的调优既包含 Hiv...

2022-06-15
1

SEO优化之增加自定义description和keywords标签菜单 - [Typecho/Handsome]

末尾有2022-04-21更新内容情况原版Typecho的description和keywords标签无法自定义,对SEO不够友好。Handsome版本:8.4.0Typecho版本:1.2.0操作修改文章撰写页自定义字段菜单打开usr/themes/handsome/functions_mine.php.....

2022-06-15
1

sqoop分隔符终极解决方案

分隔符设置不正确,要么导致hive表中行数过多要么导致所有数据到hive后都集中到一列中。在sqoop侧和hive侧都设置正确,数据从其他数据库到hive库后数据总量的准确性才能得到保证。 在sqoop侧,拼装OptionsFileUtil. expand...

2022-06-14
1

B站大数据平台元数据业务分享

负责B站数据平台工具侧元数据、数据运营、数据管理等业务方向,专注于元数据采集、血缘应用、数据地图、建模工具、治理工具等工具或产品功能的落地和推广。...

2022-06-12
1

sparksql源码系列 | 一文搞懂with one count distinct 执行原理

今天下午的源码课,主要是对上两次课程中留的作业的讲解,除了几个逻辑执行计划的优化器外, 重点是planAggregateWithOneDistinct(有一个count distinct情况下生成物理执行计划的原理)。...

2022-06-09
1

sparksql源码系列 | 一文搞懂Show create table 执行原理

这篇文章主要介绍了show create table命令执行的源码流程,弄清楚了sparksql是怎么和hive元数据库交互,查询对应表的metadata,然后拼接成最终的结果展示给用户的。...

2022-06-09
1

Hive的用户权限体系理解

此前对Hive的用户体系一直是心存疑惑,最近有了一些新的体会,我发现一个此前困恼了很久的问题,随着经验的增长都会迎刃而解。

2022-06-07
1

一种分析HDFS文件变化及小文件分布情况的方法

目前各个企业都在利用Hadoop大数据平台,每天都会通过ETL产生大量的文件到hdfs上,如何有效的去监测数据的有效性,防止数据的无限增长导致物理资源跟不上节奏,我们必须控制成本,让有限的资源发挥大数据的极致功能。本文介绍...

2022-06-07
1

为 Hive 配置 postgres 或 MySQL 作为元数据库

Hive的元数据默认使用derby作为存储DB,derby作为轻量级的DB,在开发、测试过程中使用比较方便,但是在实际的生产环境中,还需要考虑易用性、容灾、稳定性以及各种监控、运维工具等,这些都是derby缺乏的。...

2022-06-07
1