最新 最热

【HBase】HBase之what

2006年末发起,根据Google的Chang等人发表的论文“Bigtable:A Distributed Storage System for Strctured Data“来设计的。

2022-03-31
1

Apache Drill 专为Hadoop、NoSQL和云存储设计的Schema-free类型的SQL引擎

Apache Drill是一款开源的数据探索工具,一个分布式SQL查询和分析引擎。它包含了很多专有的设计,来进行高性能分析,支持半结构化数据源(JSON、XML和日志等)和基于应用不断创新的数据格式。在此基础上,Drill不仅支持行业标准...

2022-03-30
1

Flume日志收集系统

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。...

2022-03-29
1

【首页推荐】详解 HBase 安装及部署配置

由于 HBase 是以 HDFS 作为底层存储文件系统的,因此部署好 Hadoop 并启动服务是 HBase 部署的先决条件。我们将在《第三篇:Hadoop部署配置及运行调试(下) - HA完全分布式》中部署的 Hadoop 上,以完全分布式模式来安装部...

2022-03-28
1

【大数据技术】Hadoop体系框架详细解析

Mapreduce是一种模式,一种什么模式呢?一种云计算的核心计算模式,一种分布式运算技术,也是简化的分布式编程模式,它主要用于解决问题的程序开发模型,也是开发人员拆解问题的方法。 如下图所示,ma...

2022-03-25
1

大数据框架(分区,分桶,分片)

在大数据分布式中,分区,分桶,分片是设计框架的重点。此篇就来总结各个框架。建议收藏

2022-03-23
1

HBase海量数据高效入仓解决方案

现阶段部分业务数据存储在HBase中,这部分数据体量较大,达到数十亿。大数据需要增量同步这部分业务数据到数据仓库中,进行离线分析,目前主要的同步方式是通过HBase的hive映射表来实现的。该种方式具有以下痛点:...

2022-03-21
1

什么是麒麟(kylin)?查数据贼快的哟

由于工作需要,前段时间对kylin简单入了个门,现在来写写笔记(我的文字或许能帮助到你入门kylin,至少看完这篇应该能知道kylin是干什么的)。

2022-03-17
1

存储系统又慢又杂太难用?我们推荐这几本书帮你解决问题

我们常用的存储系统种类非常多,有单机的也有分布式的,有的是数据库,有的是文件系统,还有介于二者之间的。无论是哪种存储系统(比如,MySQL、Redis、Elasticsearch,等等),它们都具有如下三个特点。...

2022-03-11
1

「Apache Hudi系列」核心概念与架构设计总结

Apache Hudi依赖 HDFS 做底层的存储,所以可以支撑非常大规模的数据存储。同时基于下面两个原语,Hudi可以解决流批一体的存储问题。

2022-03-11
1