hbase_字节宝

【HBase】HBase之what

2006年末发起，根据Google的Chang等人发表的论文“Bigtable：A Distributed Storage System for Strctured Data“来设计的。

2022-03-31

Apache Drill 专为Hadoop、NoSQL和云存储设计的Schema-free类型的SQL引擎

Apache Drill是一款开源的数据探索工具，一个分布式SQL查询和分析引擎。它包含了很多专有的设计，来进行高性能分析，支持半结构化数据源（JSON、XML和日志等）和基于应用不断创新的数据格式。在此基础上，Drill不仅支持行业标准...

hive json apache hbase TDSQLMySQL版

2022-03-30

Flume日志收集系统

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。...

大数据 hbase zookeeper TDSQLMySQL版网站

2022-03-29

【首页推荐】详解 HBase 安装及部署配置

由于 HBase 是以 HDFS 作为底层存储文件系统的，因此部署好 Hadoop 并启动服务是 HBase 部署的先决条件。我们将在《第三篇：Hadoop部署配置及运行调试(下) - HA完全分布式》中部署的 Hadoop 上，以完全分布式模式来安装部...

hbase hadoop 大数据部署

2022-03-28

【大数据技术】Hadoop体系框架详细解析

Mapreduce是一种模式，一种什么模式呢?一种云计算的核心计算模式，一种分布式运算技术，也是简化的分布式编程模式，它主要用于解决问题的程序开发模型，也是开发人员拆解问题的方法。如下图所示，ma...

缓存存储 hbase hadoop TDSQLMySQL版

2022-03-25

大数据框架(分区，分桶，分片)

在大数据分布式中，分区，分桶，分片是设计框架的重点。此篇就来总结各个框架。建议收藏

hbase TDSQLMySQL版编程算法数据库 SQL

2022-03-23

HBase海量数据高效入仓解决方案

现阶段部分业务数据存储在HBase中，这部分数据体量较大，达到数十亿。大数据需要增量同步这部分业务数据到数据仓库中，进行离线分析，目前主要的同步方式是通过HBase的hive映射表来实现的。该种方式具有以下痛点：...

大数据 hbase

2022-03-21

什么是麒麟(kylin)？查数据贼快的哟

由于工作需要，前段时间对kylin简单入了个门，现在来写写笔记（我的文字或许能帮助到你入门kylin，至少看完这篇应该能知道kylin是干什么的）。

hive hbase TDSQLMySQL版存储大数据

2022-03-17

存储系统又慢又杂太难用？我们推荐这几本书帮你解决问题

我们常用的存储系统种类非常多，有单机的也有分布式的，有的是数据库，有的是文件系统，还有介于二者之间的。无论是哪种存储系统（比如，MySQL、Redis、Elasticsearch，等等），它们都具有如下三个特点。...

云数据库SQLServer 数据库 SQL hbase 分布式

2022-03-11

「Apache Hudi系列」核心概念与架构设计总结

Apache Hudi依赖 HDFS 做底层的存储，所以可以支撑非常大规模的数据存储。同时基于下面两个原语，Hudi可以解决流批一体的存储问题。

文件存储 hbase TDSQLMySQL版数据库大数据