最新 最热

Hive 如何快速拉取大批量数据

用hive来做数仓类操作,或者大数据的运算,是没有疑问的,至少在你没有更多选择之前。

2021-04-02
1

一文学完所有的Hive Sql(两万字最全详解)

lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一行或者多行,lateral view在把结果组合...

2021-04-02
0

pandas使用技巧-爆炸函数使用

Pandas使用技巧-实现爆炸函数本文中记录的是如何使用pandas来实现hive中爆炸函数的功能具体需求统计每个员工的销售记录:有作为销售员、跟单员、结单员的任意一种,即可说明参与了该订单的...

2021-04-01
1

Github 1.9K Star的数据治理框架-Amundsen

这是Amundsen官网的一句话,对于元数据的管理工作,复杂且繁琐。可用的工具很多各有千秋,数据血缘做的较好的应该是Apache Atlas,而数据可视化做的较好的应该是Apache Superset。业界一直需要一个可以整合这些功能,让数据治...

2021-03-29
1

Flink结合Kafka实时写入Iceberg实践笔记

环境:本地测试环境 JDK1.8 、Flink 1.11.2 、Hadoop3.0.0 、Hive2.1.1

2021-03-27
0

数据湖在大数据典型场景下应用调研个人笔记

数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施;以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理;并通过与各类外部异构数据源的交...

2021-03-26
1

实时方案之数据湖探究调研笔记

数据湖是目前比较热的一个概念,许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前,搞清楚什么是数据湖,明确一个数据湖项目的基本组成,进而设计数据湖的基本架构,对于数据湖的构建至关重要。关于什么是...

2021-03-26
1

2021年最新鲜的面试题整理:亿信华辰

我们VIP成员很多在2021年春节年前、后,拿到了offer。而且不止一个,有的两个,有的四个,有的六个。这里给我们分享其中一位成员,整理的一家公司的面试题,后续将会陆续发布。...

2021-03-22
0

Hive安装步骤及HQL使用学习

Hive是一个使用类SQL管理分布式存储上大规模数据集的数据仓库,它提供了命令行工具和JDBC驱动程序帮助用户使用Hive。

2021-03-21
0

基于prometheus与grafana搭建fsimage解析监控(1)

1、获取fsimage信息,对于超级小的集群,或者是文件数较少的集群可以用命令获取。

2021-03-11
0