一,简介
数据仓库的工具,存储在hdfs上,使用mr来处理数据。
1,数仓
英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。它出于分析性报告和决策支持目的的创建。
主要特征
a.集成性
b.不可更新性
c.面向主题性
d.时变性
数据库和数据仓库的区别(olap和oltp的区别)
a.数据库是面向事务的,数仓是面向主题的
b.数据库存储的是当前和历史数据,数仓存储的是历史数据
c.数据库是面向操作人员,数仓面向的是管理层
d.数据库是事务驱动,数仓是分析驱动
数仓分层
源数据层,通用层,缓冲层,聚合层,应用层
a.源数据层:每个系统的数据库,页面数据,日志
b.通用层:/data/ftp/ ==》hdfs /bdp/data/RAW/01/tablename/date/XXXXXXX.tar.gz
c.缓冲层(ODS|MID):刚一落地到数据仓库的位置
d.聚合层(tmp|prc):将缓冲层的数据,做聚合操作
e.应用层(fct):业务要求的表格
数仓元数据
技术元数据
业务元数据
2,Hive
概念
Hive是基于 Hadoop 的一个【数据仓库工具】,可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能
为什么要用Hive?
a.使用sql
b.成本低
c.扩展方便
特点
a.可扩展性
Hive可以自由的扩展集群的规模,一般情况下不需要重启服务
b.延伸性
Hive支持自定义函数,用户可以根据自己的需要来实现自己的函数
c.容错
即使节点出现错误,SQL仍然可以完成执行
优缺点
优点:可扩展性。延伸性。容错。使用方便。成本低
缺点:延时太高,sql局限性比较大
3,Hive架构
a.client
b.解析器
c.解释
d.优化
e.执行
f.元数据库
4,Hive和传统数据库对比
a.hive可以存储海量数据
b.hive存储在hdfs上
c.hive主要是面向分析的
d.hive存储的都是历史数据