最新 最热

Hive的自定义函数与通过reflect调用java方法

发现hive自带的函数就有近一百个,但我们平时经常用到的可能就那么几个,并且自带的函数功能还十分受限!有时候,为了更好的实现业务需求,可能就需要我们去自定义Hive! 根据用户自定义函数类别分为以下三种:...

2021-01-22
0

Hive基本操作(持续更新ing)

数据库的元数据信息是不可更改的,包括数据库的名称以及数据库所在的位置,但我们可以使用alter database 命令来修改数据库的一些属性。

2021-01-22
0

Hive基本概念入门与安装部署,使用(简单清晰,一目了然!)

在经过几天MapReduce的学习之后,我们总算是来到了Hive阶段。本篇博客小菌将为大家带来Hadoop组件之——Hive的介绍! 首先在开始之前,再让我们通过一张熟悉的图片来回顾一下Hadoop生态系统的组成部分!...

2021-01-22
1

hive窗口函数/分析函数详细剖析

在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,...

2021-01-22
0

【大数据哔哔集20210117】Hive大表关联小表到底该怎么做

当一个大表和一个或多个小表做JOIN时,最好使用MAPJOIN,性能比普通的JOIN要快很多。另外,MAPJOIN 还能解决数据倾斜的问题。MAPJOIN的基本原理是:在小数据量情况下,SQL会将用户指定的小表全部加载到执行JOIN操作的程序的内...

2021-01-21
0

【大数据哔哔集20210113】Hive的动态分区和静态分区

静态分区与动态分区的主要区别在于静态分区是手动指定,而动态分区是通过数据来进行判断。详细来说,静态分区的列实在编译时期,通过用户传递来决定的;动态分区只有在SQL执行时才能决定。不难看出,Hive分区主要是以缩小数据...

2021-01-21
0

【大数据哔哔集20210111】HDFS中的常用压缩算法及区别

sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。SequenceFi...

2021-01-21
1

【大数据】那些简化操作的辅助脚本

大数据常用环境中,除了hadoop、spark本身自带脚本,能够完成快速启停,其它组件的启动命令稍微复杂,而且步骤较多。

2021-01-21
1

hivesql导出本地文件

做数据分析的时候,经常会用到hive -e "sql" > xxx.txt或者最原始的hive命令行来获得查询结果,然后再将查询结果放到Excel等工具中,但是如果查询的字段太多,这时候将查询结果放到Excel会经常会碰到错位问题,很是头疼....

2021-01-21
0

关于大数据的完整讲解

ELT的过程是,在抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者外部计算框架,如Spark来完成转换

2021-01-20
1