hive_字节宝

首页 / 技术

基于Ubuntu Hadoop的群集搭建Hive

Hive是Hadoop生态中的一个重要组成部分，主要用于数据仓库。前面的文章中我们已经搭建好了Hadoop的群集，下面我们在这个群集上再搭建Hive的群集。

hive hadoop 数据库云数据库SQLServer SQL

2022-06-16

6

3万字史诗级 Hive 性能调优(建议收藏)

Hive 作为大数据领域常用的数据仓库组件，在平时设计和查询的时候要特别注意效率。影响 Hive 效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、Job或I/O过多、MapReduce 分配不合理等等。对Hive 的调优既包含 Hiv...

hive 大数据文件存储 SQL mapreduce

2022-06-15

6

SEO优化之增加自定义description和keywords标签菜单 - [Typecho/Handsome]

末尾有2022-04-21更新内容情况原版Typecho的description和keywords标签无法自定义，对SEO不够友好。Handsome版本：8.4.0Typecho版本：1.2.0操作修改文章撰写页自定义字段菜单打开usr/themes/handsome/functions_mine.php.....

PHP 网站 HTML 官方文档 hive

2022-06-15

6

sqoop分隔符终极解决方案

分隔符设置不正确，要么导致hive表中行数过多要么导致所有数据到hive后都集中到一列中。在sqoop侧和hive侧都设置正确，数据从其他数据库到hive库后数据总量的准确性才能得到保证。在sqoop侧，拼装OptionsFileUtil. expand...

2022-06-14

4

B站大数据平台元数据业务分享

负责B站数据平台工具侧元数据、数据运营、数据管理等业务方向，专注于元数据采集、血缘应用、数据地图、建模工具、治理工具等工具或产品功能的落地和推广。...

数据库大数据 SQL hive 运维

2022-06-12

5

sparksql源码系列 | 一文搞懂with one count distinct 执行原理

今天下午的源码课，主要是对上两次课程中留的作业的讲解，除了几个逻辑执行计划的优化器外，重点是planAggregateWithOneDistinct（有一个count distinct情况下生成物理执行计划的原理）。...

SQL spark 数据库 hive linux

2022-06-09

5

sparksql源码系列 | 一文搞懂Show create table 执行原理

这篇文章主要介绍了show create table命令执行的源码流程，弄清楚了sparksql是怎么和hive元数据库交互，查询对应表的metadata，然后拼接成最终的结果展示给用户的。...

hive spark 编程算法 SQL 数据库

2022-06-09

4

Hive的用户权限体系理解

此前对Hive的用户体系一直是心存疑惑，最近有了一些新的体会，我发现一个此前困恼了很久的问题，随着经验的增长都会迎刃而解。

hive 大数据 SQL kerberos linux

2022-06-07

15

一种分析HDFS文件变化及小文件分布情况的方法

目前各个企业都在利用Hadoop大数据平台，每天都会通过ETL产生大量的文件到hdfs上，如何有效的去监测数据的有效性，防止数据的无限增长导致物理资源跟不上节奏，我们必须控制成本，让有限的资源发挥大数据的极致功能。本文介绍...

Node.js hive SQL api https

2022-06-07

2

为 Hive 配置 postgres 或 MySQL 作为元数据库

Hive的元数据默认使用derby作为存储DB，derby作为轻量级的DB，在开发、测试过程中使用比较方便，但是在实际的生产环境中，还需要考虑易用性、容灾、稳定性以及各种监控、运维工具等，这些都是derby缺乏的。...

SQL 数据库云数据库SQLServer hive Java

2022-06-07

4

45 46 47 48 49