最新 最热

实时数仓项目架构分层

在公司内部,我们数据团队有幸与顺风车业务线深入合作,在满足业务方实时数据需求的同时,不断完善实时数仓内容,通过多次迭代,基本满足了顺风车业务方在实时侧的各类业务需求,初步建立起顺风车实时数仓,完成了整体数据分层,包含...

2022-04-19
1

如何提升 HBase 大规模集群下的低延时性能

HubSpot 的数据基础设施团队,每天都要处理 2.5PB 以上的低延迟流量,他们亲眼目睹了 Locality 对于 HBase 的性能有多么重要。请继续阅读,以了解更多关于这些问题:什么是 Locality ,为什么如此重要,以及我们如何在不断增长的...

2022-04-19
0

HBase调优及优化的20种方式(上)

默认情况下,AutoFlush是开启的,当每次put操作的时候,都会提交到HBase server,大数据量put的时候会造成大量的网络IO,耗费性能

2022-04-18
0

Kylin云端跨集群迁移实践

“ 本文介绍在云端kylin数据迁移的实现方案以及在迁移过程中的遇到哪些问题,并给出了问题解决方案.本次迁移中涉及到的hbase cube表1600+,model数量80+,project 10+”...

2022-04-18
0

OpenTSDB实现原理与安装

特别适合用来做监控类别的数据存储,它的底层是基于HBase,是一种以Metirc为单元的存储结果,可以实现大数据量下的毫秒级别的查询

2022-04-18
0

Apache Kylin Cube优化方式

前面说过,cube时所有维度的组合,当我们有10个维度时,那么就会计算2^10 也就是1024个cuboid,但是当我们真正查询的时候,可能只会用到100个,如果不做优化的话...

2022-04-18
1

Apache Kylin原理与架构

Apache Kylin是一个开源的大数据分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力(可以把Kylin定义为OLAP on Hadoop)。Apache Kylin于2015年11月正式毕业成为Apache基金会(ASF) 顶级项目,是第一个由中国团...

2022-04-18
0

Kylin垃圾清理

kylin 本身提供了如何清理垃圾数据的操作,在这里要注意一点就是元数据的清理要做好备份准备,同时kylin也提供了元数据备份的操作。

2022-04-18
0

数仓设计的几点原则

高内聚、低耦合是软件设计的常见概念,特别是在软件模块划分中会被常常提起,需要将功能相同的内聚在一起,将职责不同的功能解耦, 比喻说常见的MVC 分层模式,每一层负责单独的功能。高内聚、低耦合可以使得软件模块职责划分...

2022-04-18
0

AliExpress基于Flink的广告实时数仓建设

摘要:实时数仓以提供低延时数据指标为目的供业务实时决策,本文主要介绍基于Flink的广告实时数仓建设,主要包括以下内容:

2022-04-18
1