最新 最热

Hive - ORC 文件存储格式详细解析

ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列...

2020-12-08
0

升级Hive3处理语义和语法变更

由于在CDH或HDP中运行的Hive的早期版本与CDP中的Hive 3之间的语义变化,您需要执行许多与迁移相关的更改。Hive 3中与db.table引用和DROP CASCADE相关的一些语法更改可能需要对应用程序进行更改。...

2020-12-08
1

大数据入门:Hive应用场景

在大数据的发展当中,大数据技术生态的组件,也在不断地拓展开来,而其中的Hive组件,作为Hadoop的数据仓库工具,可以实现对Hadoop集群当中的大规模数据进行相应的数据处理。今天我们的大数据入门分享,就主要来讲讲,Hive应用场景...

2020-12-07
1

011.分布式可视化DAG工作流任务调度系统DolphinScheduler-1.3.3安装部署

源码下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/incubator/dolphinscheduler/ 我这里选择1.3.3版本的apache-dolphinscheduler-incubating-1.3.3-src.zip

2020-12-03
0

大数据入门:Impala框架基础简介

在大数据处理当中,核心的数据分析处理环节,衍生出了非常多的框架组件工具,基于不同场景下的需求,给出了更多可选的技术方案。比如说在交互式查询场景下,Impala就是一个不可忽视的重要选择。今天的大数据入门分享,我们就来讲...

2020-11-25
1

漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)

拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。...

2020-11-25
0

Flink集成iceberg数据湖之合并小文件

在传统的实时数仓中,由于列式存储相对行式存储有较高的查询性能,我们一般采用orc,parquet数据格式,但是这种列式格式无法追加,流式数据又不能等候太长时间,等到文件够了一个hdfs block块大小再写入,所以不可避免的产生了一个...

2020-11-25
0

大数据篇---Impala学习第 1 部分 Impala概述第 2 部分 Impala 安装与⼊⻔案例第 3 部分 Imapla的架构原理第 4 部分 Impala的使用

invalidate metadata全量刷新,性能消耗较⼤,主要⽤于hive当中新建数据库或者数据库表的时候来进 ⾏刷新。

2020-11-25
1

Apache Hive 3架构概述

了解Apache Hive 3的主要设计功能(例如默认的ACID事务处理)可以帮助您使用Hive来满足企业数据仓库系统不断增长的需求。

2020-11-25
1

深度对比 Apache CarbonData、Hudi 和 Open Delta 三大开源数据湖方案

摘要:今天我们就来解构数据湖的核心需求,同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案,帮助用户更好地针对自身场景来做数据湖方案选型。...

2020-11-24
1