最新 最热

Windows搭建Hive1.2.2

1. 环境操作系统: Windows 7JDK版本: 1.8.0_221Hadoop版本: 2.6.0 (Hive依赖)Hive版本: 1.2.22. 下载image.pngimage.

2020-10-28
0

sqoop概述

sqoop,即SQL To Hadop,目的是完成关系型数据库导入导出到Hadoop

2020-10-28
1

pyspark读取pickle文件内容并存储到hive

在平常工作中,难免要和大数据打交道,而有时需要读取本地文件然后存储到Hive中,本文接下来将具体讲解。

2020-10-27
0

在Zeppelin中如何使用Hive

我们来看看强大的 Zeppelin 能够给 Hive 带来什么吧。首先需要安装 Hive 和 Zeppelin。具体请参考如下两篇文章:

2020-10-27
1

Presto在滴滴的探索与实践

桔妹导读:Presto在滴滴内部发展三年,已经成为滴滴内部Ad-Hoc和Hive SQL加速的首选引擎。目前服务6K+用户,每天读取2PB ~ 3PB HDFS数据,处理30万亿~35万亿条记录,为了承接业务及丰富使用场景,滴滴Presto需要解决稳定性、易用...

2020-10-27
0

Presto统计信息

Presto支持基于统计的查询优化。为了使查询能够利用这些优化,Presto必须具有该查询中表的统计信息。

2020-10-26
0

MySQL系列之体系结构原理学习笔记

引用来自官网的图,MySQL Server架构从上到下依次为网络连接层(Connectors)、服务层(MySQL Server)、存储引擎层(Plugable Storage Engines)、系统文件层(File System)

2020-10-26
1

Kettle构建Hadoop ETL实践(七):定期自动执行ETL作业

一旦数据仓库开始使用,就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定,需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分,它不但是数据仓库的基本需求,也对项...

2020-10-26
1

Kettle构建Hadoop ETL实践(六):数据转换与装载

本篇重点是针对销售订单示例创建并测试数据装载的Kettle作业和转换。在此之前,先简要介绍数据清洗的概念,并说明如何使用Kettle完成常见的数据清洗工作。由于本示例中Kettle在Hadoop上的ETL实现依赖于Hive,所以之后对Hiv...

2020-10-26
1

基于Flink的实时数据接入实践

一、TDBank接入hive数据的痛点和挑战 数据接入到Hive是TDW数据接入中应用最广泛的场景,整体的数据流向路径如下所示: 图1 数据接入到TDW Hive的流向路径 数据从源侧发送,经过TDBus后存入MQ,然后由TDSort消费并根据业务规...

2020-10-26
0