大数据入门：Hive应用场景

在大数据的发展当中，大数据技术生态的组件，也在不断地拓展开来，而其中的Hive组件，作为Hadoop的数据仓库工具，可以实现对Hadoop集群当中的大规模数据进行相应的数据处理。今天我们的大数据入门分享，就主要来讲讲，Hive应用场景。

关于Hive，首先需要明确的一点就是，Hive并非数据库，Hive所提供的数据存储、查询和分析功能，本质上来说，并非传统数据库所提供的存储、查询、分析功能。

Hive数据仓库工具将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。通过类SQL语句实现快速MapReduce统计，使MapReduce编程变得更加简单易行。

总的来说，Hive是十分适合数据仓库的统计分析和Windows注册表文件。

Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS（Hive superimposes structure on data in HDFS），并允许使用类似于SQL语法进行数据查询。

Hive更适合于数据仓库的任务，主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。

Hive在Hadoop之上，使用Hive的前提是先要安装Hadoop。

Hive要分析的数据存储在HDFS，Hive为数据创建的表结构（schema），存储在RDMS（relevant database manage system关系型数据库管理系统，比如mysql）。

Hive构建在基于静态批处理的Hadoop之上，Hadoop通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此，Hive并不能够在大规模数据集上实现低延迟快速的查询，例如，Hive在几百MB的数据集上执行查询一般有分钟级的时间延迟。

Hive查询操作过程严格遵守Hadoop MapReduce的作业执行模型，Hive将用户的HiveQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上，Hadoop监控作业执行过程，然后返回作业执行结果给用户。Hive的最佳使用场合是大数据集的批处理作业，例如，网络日志分析。

优点：

操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。

Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。

Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。

Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

缺点：

1．Hive的HQL表达能力有限

（1）迭代式算法无法表达递归算法

（2）数据挖掘方面不擅长（数据挖掘和算法机器学习）

2．Hive的效率比较低

（1）Hive自动生成的MapReduce作业，通常情况下不够智能化

（2）Hive调优比较困难，粒度较粗（快）

关于大数据入门，Hive应用场景，以上就为大家做了大致的介绍了。在大数据应用场景下，Hive更多是作为Hadoop的一个数据仓库工具，并不直接存储数据，但是却不可或缺。

0 人点赞