最新 最热

数仓字段血缘解析实现—hive版

1、两个数据报表进行对比,结果差异很大,需要人工核对分析指标的维度信息,比如从头分析数据指标从哪里来,处理条件是什么,最后才能分析出问题原因 ——数据回溯问题...

2020-04-20
0

从一个sql引发的hive谓词下推的全面复盘及源码分析(下)

词法语法解析—>语义解析—>生成逻辑执行计划—>优化逻辑执行计划—>生成物理执行计划—>优化物理执行计划

2020-04-20
1

从一个sql引发的hive谓词下推的全面复盘及源码分析(上)

经常听到【谓词下推】这个词,却从来没有对它进行全面的深入的研究,直到前些天,我们的数据产品跑过来跟我讨论 他写的一个sql,这个sql最终出现的结果并不是他想要的。看了具体的sql后,引发了我的一些思考,决定来挖一挖谓词下...

2020-04-20
0

Hive源码系列(十)编译模块之语义解析 数据准备

在hive的源码apache-hive-2.1.1-src/data目录 下有测试数据以及脚本,进入该 目录执行 hive -f 'scripts/q_test_init.sql' 语句导入数据到hive,也可以自己创建数据表。...

2020-04-20
0

Hive源码系列(九)编译模块之语义解析 整体分析

语义解析主要是把AST Tree转化为QueryBlock,那为什么要转成QueryBlock呢?从之前的分析,我们可以看到AST Tree 还是很抽象,并且也不携带表、字段相关的信息,进行语义解析可以将AST Tree分模块存入QueryBlock 并携带对应的元...

2020-04-20
1

Hive源码系列(一)hive2.1.1+hadoop2.7.3环境搭建

这是一篇工具类的文章,工欲善其事必先利其器,要分析调试hive源码,必须搭建一套hive的运行环境。还记得第一次搭建hive源码调试环境,用了一个月的时间,才完全跑通整个调试过程。中间遇到各种各样莫名奇妙的问题,也有好多次想...

2020-04-20
0

数据仓库开发人员怎么避免成为取数机器?

从事互联网数据仓库工作好多年了,其中最大的感触就是数据仓库开发人员每天做的最多的工作就是为业务方取数。简单重复的取数工作,一方面很难让大家在技能上有提高,另一方面也慢慢的消磨了大家的积极性和意志,也让大家极没...

2020-04-18
1

Hive Bug系列之关联结果不正确详解

Hive是互联数据仓库中使用最频繁的工具,做为仓库的技术人员,有很大必要去深入了解它,并以认真的态度去对待工作中遇到的每个问题,每个知识点,由点及面,让我们的技术更扎实,也让我们更有底气~~...

2020-04-18
0

Hive源码系列(二)hive2.1.1源码编译并编译成eclipse项目

这是一篇工具类的文章,工欲善其事必先利其器,要分析调试hive源码,必须搭建一套hive的运行环境。还记得第一次搭建hive源码调试环境,用了一个月的时间,才完全跑通整个调试过程。中间遇到各种各样莫名奇妙的问题,也有好多次想...

2020-04-18
1

Hive源码系列(三)hive2.1.1源码导入eclipse并做初步运行

上一篇主要写了hive2.1.1源码编译并编译成eclipse项目,这一篇主要写将hive2.1.1源码导入eclipse以及运行hive命令的入口类CliDriver.java。在导入及运行的过程会遇到各种各样的问题,本文写了自己遇到的问题及解决方案。...

2020-04-18
1