最新 最热

干货 | 日均TB级数据,携程支付统一日志框架

英明,携程数据研发专家,负责支付离线数据仓库建设及BI业务需求,对并行计算、大数据处理及建模等有浓厚兴趣。

2020-09-15
1

如何启动HiveServer2

HiveServer2 是一种可选的 Hive 内置服务,可以允许远程客户端使用不同编程语言向 Hive 提交请求并返回结果。HiveServer2 是 HiveServer1 的改进版,主要解决了无法处理来自多个客户端的并发请求以及身份验证问题。具体...

2020-09-15
0

Hive通过Jdbc连接HiveServer2

如果想通过 JDBC 来访问 HiveServer2,需要开启 HiveServer2 服务,具体请参阅 如何启动HiveServer2。

2020-09-15
1

2020-09-11:Hive的优化策略有哪些?

福哥答案2020-09-11:#福大大架构师每日一题#[Hive调优及优化的12种方式](https://zhuanlan.zhihu.com/p/80718835?utm_source=qq)1

2020-09-14
1

Impala 高性能、低延迟的大数据查询引擎

Impala是对现有大数据查询工具的补充,不能替代基于Hive的MapReduce批处理任务框架(适用于耗时长的批处理任务,例如ETL等)。

2020-09-10
1

Typecho实现微信发消息:Type时光机

对此我很感兴趣,决定也在自己的博客上使用起来。在此,非常感谢他在前面探路,而且因为我忙,还帮我写好了操作步骤,下面我列的操作,来自他提供的操作文档。...

2020-09-10
0

MapReduce工作笔记——Job上传普通文件和大文件

我们在配置MR Streaming任务的时候,通常会上传mapper、reducer以及其他会用到的一些文件,在MapReduce工作笔记——Hadoop shell 常用文件操作命令中提到过使用put数据上传HDFS。在执行MR Job 的时候,Hadoop会将其配置的...

2020-09-10
0

Kettle构建Hadoop ETL实践(四):建立ETL示例模型

从本篇开始,介绍使用Kettle实现Hadoop数据仓库的ETL过程。我们会引入一个典型的订单业务场景作为示例,说明多维模型及其相关ETL技术在Kettle上的具体实现。本篇首先介绍一个小而典型的销售订单示例,描述业务场景,说明示例...

2020-09-08
1

Spark SQL快速入门系列之Hive

hive on spark(版本兼容)官网https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

2020-09-08
0

基于Canal与Flink实现数据实时增量同步(二)

在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说,从MySQL等关系型数据库的业务...

2020-09-08
0