(一)Hive简介

2020-09-20 19:46:57 浏览数 (1)

一,简介

数据仓库的工具,存储在hdfs上,使用mr来处理数据。

1,数仓

英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。它出于分析性报告和决策支持目的的创建。

主要特征

a.集成性

b.不可更新性

c.面向主题性

d.时变性

数据库和数据仓库的区别(olap和oltp的区别)

a.数据库是面向事务的,数仓是面向主题的

b.数据库存储的是当前和历史数据,数仓存储的是历史数据

c.数据库是面向操作人员,数仓面向的是管理层

d.数据库是事务驱动,数仓是分析驱动

数仓分层

源数据层,通用层,缓冲层,聚合层,应用层

a.源数据层:每个系统的数据库,页面数据,日志

b.通用层:/data/ftp/ ==》hdfs /bdp/data/RAW/01/tablename/date/XXXXXXX.tar.gz

c.缓冲层(ODS|MID):刚一落地到数据仓库的位置

d.聚合层(tmp|prc):将缓冲层的数据,做聚合操作

e.应用层(fct):业务要求的表格

数仓元数据

技术元数据

业务元数据

2,Hive

概念

Hive是基于 Hadoop 的一个【数据仓库工具】,可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能

为什么要用Hive?

a.使用sql

b.成本低

c.扩展方便

特点

a.可扩展性

Hive可以自由的扩展集群的规模,一般情况下不需要重启服务

b.延伸性

Hive支持自定义函数,用户可以根据自己的需要来实现自己的函数

c.容错

即使节点出现错误,SQL仍然可以完成执行

优缺点

优点:可扩展性。延伸性。容错。使用方便。成本低

缺点:延时太高,sql局限性比较大

3,Hive架构

a.client

b.解析器

c.解释

d.优化

e.执行

f.元数据库

4,Hive和传统数据库对比

a.hive可以存储海量数据

b.hive存储在hdfs上

c.hive主要是面向分析的

d.hive存储的都是历史数据

0 人点赞