最新 最热

初识 Spark SQL | 20张图详解 Spark SQL 运行原理及数据抽象

不管是做平台的,还是做应用的,都免不了跟 SQL 打交道。一句“SQL Boy”,虽然是大家的自嘲,但也能说明大数据工程师们跟 SQL 的关系之紧密。

2022-03-28
1

大数据权限管理框架:Apache Sentry和Ranger

本篇简单介绍一下业界流行的大数据权限管理框架Apache Sentry和Ranger。

2022-03-28
1

Spark 处理小文件

不论是Hive还是Spark SQL在使用过程中都可能会遇到小文件过多的问题。小文件过多最直接的表现是任务执行时间长,查看Spark log会发现大量的数据移动的日志。我们可以查看log中展现的日志信息,去对应的路径下查看文件的...

2022-03-27
1

Hive常用函数

select unix_timestamp();select unix_timestamp("2020-10-28",'yyyy-MM-dd');

2022-03-25
1

spark sql读取hudi表数据

这篇文章接上一篇spark submit读写hudi,上一篇spark submit写入hudi的数据这里打算通过spark sql来进行查询

2022-03-24
1

ClickHouse / Hive 数组交、并、差计算

函数:arrayIntersect(arr1,arr2,...) 功能说明:计算 arr1,arr2等数组元素交集。 返回值:交集元素子数组。 SQL 实例:

2022-03-23
1

WideTableMultiDimSQLParser 解析说明:ClickHouse / Hive 数组交并差运算

WideTableMultiDimSQLParser 解析说明1.ClickHouse 数组交并差运算--交 t[1] ∩ t[2] : arrayIntersect(t[1], t[2])select length(arrayDistinct(arrayFilter(x->x is not null, t.re...

2022-03-23
1

大数据技术之Sqoop

Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到...

2022-03-23
1

作业帮基于 Delta Lake 的湖仓一体实践

作业帮是一家以科技为载体的在线教育公司。目前旗下拥有工具类产品作业帮、作业帮口算,K12 直播课产品作业帮直播课,素质教育产品小鹿编程、小鹿写字、小鹿美术等,以及喵喵机等智能学习硬件。作业帮教研中台、教学中台、...

2022-03-23
1

hive beeline操作遇到的问题

1 Org.apache.hadoop.hive.service.ThriftHive

2022-03-22
1