Hive-原理解析

一、Hive 架构

下面是Hive的架构图。

Hive的体系结构可以分为以下几部分

1、用户接口：CLI（hive shell）；JDBC（java访问Hive）；WEBUI（浏览器访问Hive） 2、元数据：MetaStore 元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段，标的类型（表是否为外部表）、表的数据所在目录。这是数据默认存储在Hive自带的derby数据库中，推荐使用MySQL数据库存储MetaStore。 3、Hadoop集群：使用HDFS进行存储数据，使用MapReduce进行计算。 4、Driver:驱动器：

解析器（SQL Parser）：将SQL字符串换成抽象语法树AST，对AST进行语法分析，像是表是否存在、字段是否存在、SQL语义是否有误。
编译器（Physical Plan）：将AST编译成逻辑执行计划。
优化器（Query Optimizer）：将逻辑计划进行优化。
执行器（Execution）：把执行计划转换成可以运行的物理计划。对于Hive来说默认就是Mapreduce任务。

二、Hive 工作原理

Hive 工作原理如下图所示。

1、ExecuteQuery：操作Hive接口，如命令行或Web UI发送查询驱动程序（任何数据库驱动程序，如JDBC，ODBC等）来执行。

2、Get Plan：在驱动程序帮助下查询编译器，分析查询检查语法和查询计划或查询的要求。

3、Get Metadata：编译器发送元数据请求到Metastore（任何数据库）。

4、Send Metadata：Metastore发送元数据，以编译器的响应。

5、Send Plan：编译器检查要求，并重新发送计划给驱动程序。到此为止，查询解析和编译完成。

6、Execute Plan：驱动程序发送的执行计划到执行引擎。

Execute Job：在内部，执行作业的过程是一个MapReduce工作。执行引擎发送作业给JobTracker，在名称节点并把它分配作业到TaskTracker，这是在数据节点。在这里，查询执行MapReduce工作。
Metadata Ops：与此同时，在执行时，执行引擎可以通过Metastore执行元数据操作。

7、Fetch Result：执行引擎接收来自数据节点的结果。

8、Send Results：执行引擎发送这些结果值给驱动程序。

hive ide 数据库 mapreduce sql

0 人点赞