最新 最热

Note_Spark_Day07:Spark SQL(DataFrame是什么和数据分析(案例讲解))

使得Spark SQL得以洞察更多的结构信息,从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行针对性的优化,最终达到大幅提升运行时效率

2021-12-07
1

手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark

两个主要方面的业务: ⚫ 第一个、数据【ETL 处理】 ◼依据IP地址,调用第三方库解析为省份province和城市city; ◼将ETL后数据保存至PARQUET文件(分区)或Hive 分区表中; ⚫ 第二个、数据【业务报表】 ◼读取Hive Table中广告...

2021-12-07
1

大数据面试题百日更新_Hive专题(Day12)

Hive 支持索引,但是 Hive 的索引与关系型数据库中的索引并不相同,比如,Hive 不支持主键或者外键。 Hive 索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少 MapReduce 任务中需要读取的数据块的数量。 在可以...

2021-12-07
1

UBUNTU 下如何升级 gcc, g++

正如大家所知道的GCC并不支持”make uninstall”. 一种推荐安装方式就是把GCC 安装在你自己指定的一个路径,当你不须要某个GCC版本号的时候你仅仅须要移除相应版本号就可以。...

2021-12-05
1

快速实现分列转到行(SQL版)一个问题,三种解法!

首先,这是一篇水文,但是作为一个系列的三胞胎之一,我觉得有必要通过一题多解来扩散一下思维,正所谓“条条大路通罗马”。

2021-12-02
1

万字全面总结 | HiveSQL优化方法

Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本...

2021-12-02
1

最强最全面的Hive SQL开发指南,超四万字全面解析!

hive -S -e 'select table_cloum from table' -S,终端上的输出不会有mapreduce的进度,执行完毕,只会把查询结果输出到终端上。

2021-12-02
1

基于Hive数据仓库的标签画像实战

建立用户画像首先需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数据仓库,存储标签和用户特征库等相关...

2021-11-30
1

spark sql join情况下谓词下推优化器PushPredicateThroughJoin

spark sql谓词下推逻辑优化器PushDownPredicates包含了三个规则:

2021-11-26
1

带着问题读 TiDB 源码:Hive 元数据使用 TiDB 启动报错

在 TiDB 社区活跃较久的伙伴们应该知道,过去我们有被称为 24 章经的《TiDB 源码阅读系列文章》,也有面向 TiKV 的《TiKV 源码解析系列文章》以及 《Deep Dive TiKV 系列文章》。这些系列文章的内容非常深入,能够帮助大家...

2021-11-26
1