大数据入门:Impala框架基础简介

2020-11-25 18:16:50 浏览数 (1)

在大数据处理当中,核心的数据分析处理环节,衍生出了非常多的框架组件工具,基于不同场景下的需求,给出了更多可选的技术方案。比如说在交互式查询场景下,Impala就是一个不可忽视的重要选择。今天的大数据入门分享,我们就来讲讲Impala框架入门的一些基础知识。

Impala背景

Impala的出现,追溯其源头,是来自于Google的“新三篇论文”(Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具)之一的交互式分析工具Dremel。

根据实验环境下的测试,Impala进行数据查询,可以实现比Hive快10-100倍,其中SQL查询性能也超过了SparkSQL,号称是大数据领域当前最快的SQL查询工具。

在实际场景下,Impala提供的针对于HDFS、Hbase数据的高性能、低延迟的交互式SQL查询,基于Hive并使用内存进行计算,兼顾数据仓库,具有实时、批处理、多并发等优点,也确实性能优良,因此得到企业级用户的青睐。

Impala与Hive的关系

Impala基于Hive进行大数据分析查询,直接使用Hive的元数据库metadata,意味着Impala元数据都存储在Hive的metastore当中,并且Impala兼容Hive的绝大多数SQL语法。

在实际应用当中,要保证Impala的正常使用,需要先安装Hive,保证Hive安装成功,并且还需要启动Hive的metastore服务才行。

Impala对比Hive所使用的优化策略

Impala把整个查询分成一执行计划树,在分发执行计划后,Impala使用拉式获取数据的方式获取结果,把结果数据组成按执行树流式传递汇集,减少的了把中间结果写入磁盘的步骤,再从磁盘读取数据的开销。

使用LLVM产生运行代码,针对特定查询生成特定代码,同时使用Inline的方式减少函数调用的开销,加快执行效率。

充分利用可用的硬件指令(SSE4.2)。

更好的IO调度,Impala知道数据块所在的磁盘位置能够更好的利用多磁盘的优势,同时Impala支持直接数据块读取和本地代码计算checksum。

通过选择合适的数据存储格式可以得到最好的性能(Impala支持多种存储格式)。

最大使用内存,中间结果不写磁盘,及时通过网络以stream的方式传递。

Impala的优点

1、Impala比较快,非常快,特别快,因为所有的计算都可以放入内存当中进行完成,只要你内存足够大;

2、摈弃了MR的计算,改用C 来实现,有针对性的硬件优化;

3、具有数据仓库的特性,对Hive的原有数据做数据分析;

4、支持ODBC,JDBC远程访问。

Impala的缺点

1、基于内存计算,对内存依赖性较大;

2、改用C 编写,意味着维护难度增大;

3、基于Hive,与Hive共存亡,紧耦合;

4、稳定性不如Hive,不存在数据丢失的情况。

关于大数据入门,Impala框架基础,以上就为大家做了一个简单的介绍了。Impala这个框架,现如今也同样是Hadoop生态当中的得力干将,学习当中应该予以相应的重视。

0 人点赞