最新 最热

Hive优化器原理与源码解析系列—CBO成本模型CostModel(二)

Hive可支持多种引擎,MR、SPARK、TEZ等,HiveDefaultCostModel是MR引擎使用的默认成本模型,通过源码分析可见默认成本模型的实现相对简单,TableScan、Aggregate、DefaultCost等Operator的CostModel成本模型计算方法都是父类...

2022-04-25
1

Hive优化器原理与源码解析系列—CBO成本模型CostModel(一)

对于基于成本优化器CBO,除了收集统计信息如内存Momery大小、选择性Selectivity、基数Cardinal、还有是否排序Collation、是否是分布式Distribution及并行度Parallelism等物理属性作为成本估算的考虑因素外(在Calcite中,...

2022-04-25
1

Hive优化器原理与源码解析系列—统计模块内存成本估算

在上篇文章“Hive优化器原理与源码解析系列--统计信息选择性计算”中,讲到了基于成本优化器和基于规则优化器的区别,这里就不再赘述。基于成本优化器会根据RelSet(等价关系表达式集合,其中元素每个RelNode关系表达式又是S...

2022-04-25
1

Hive优化器原理与源码解析系列—统计信息之选择性

Hive优化器是使用Apache Calcite动态数据管理框架实现的,其中包含VolcanoPlanner基于成本优化器(CBO)和HelpPlaner基于规则的启发式优化器(RBO)优化器。根据用户HiveConf配置信息使用不同的优化器。...

2022-04-25
1

认识 Delta Lake

17,18是计算引擎火热的两年,19年已然是红海了。计算引擎中的王者是Spark,综合指标最好,生态也好,当其他引擎还在ETL,交互查询,流上厮杀时,Spark已经在AI领域越走越远。...

2022-04-25
1

Joomla!4.1.0 Zip Slip 文件覆盖/路径遍历

/libraries/vendor/joomla/archive/src/Tar.php script. Specifically, into the JoomlaArchiveTar::extract() method:

2022-04-21
1

大数据环境搭建-Hive和Mysql

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。...

2022-04-19
1

Hive调优及优化的12种方式

distinct会将b列所有的数据保存到内存中,形成一个类似hash的结构,速度是十分的块;但是在大数据背景下,因为b列所有的值都会形成以key值,极有可能发生OOM...

2022-04-18
1

Atlas血缘分析在数据仓库中的实战案例

1.1 执行SQL1.2 手写的数据地图1.3 atlas血缘分析1.4 打标签1.4.1 CLASSIFICATION分类1.4.2 GLOSSARY词汇表1.5 字段搜索1.5.1查看表字段1.5.2 追踪字段关系

2022-04-18
1

HiveSQL技术原理、优化与面试

编译 SQL 的任务是在上节中介绍的 COMPILER(编译器组件)中完成的。Hive将SQL转化为MapReduce任务,整个编译过程分为六个阶段:

2022-04-18
1