最新 最热

可扩展超快OLAP引擎: Kylin

Kylin沿用了原来的数据仓库技术中的Cube概念,把无限数据按有限的维度进行“预处理”,然后将结果(Cube)加载到Hbase里,供用户查询使用。

2020-04-11
1

数据迁移工具Sqoop

Sqoop 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,它是Hadoop环境下连接关系数据库与Hadoop存储系统的桥梁,支持多种关系型数据源和Hive、HDFS、Hbase的相互导入。支持全表导入,也支持增量数据导入机制,Sqo...

2020-04-11
1

日志采集工具Flume

失败是最佳的营养,腐烂的树叶是树成长最佳的肥料一样,我们不仅要反思自己的过错,更要分享自己的过错,敢于分享自己过错的人才是了不起的人。...

2020-04-11
1

hbase的rowkey设计原则和实现方式

hbase的内部使用KeyValue的形式存在,其key是有rowkey:family:column:logTime,value是其存储的内容。

2020-04-11
1

Apache HBase内核深度剖析

前面一篇文章介绍了Kafka的具体内容,今天讲述一下HBase相关的知识。首先HBase作为大数据发展初期伴随Google三大论文问世的一个组件,在今天依旧被广泛的应用,今天我们来仔细的分析一下HBase的内部原理,了解一下HBase的具...

2020-04-07
1

HBase生产环境优化不完全指南

HBase集群一旦部署使用,再想对其作出调整需要付出惨痛代价,所以如何部署HBase集群是使用的第一个关键步骤。

2020-04-02
1

HBase优化笔记

一般安装好的HBase集群,默认配置是给Master和RegionServer 1G的内存,而Memstore默认占0.4,也就是400MB。显然RegionServer给的1G真的太少了。

2020-04-02
1

ImportTsv-HBase数据导入工具

HBase官方提供了基于Mapreduce的批量数据导入工具:Bulk load和ImportTsv。关于Bulk load大家可以看下我另一篇博文。

2020-04-01
1

设计HBase RowKey需要注意的二三事

这对Scan操作非常友好,因为RowKey相近的行总是存储在相近的位置,顺序读的效率比随机读要高。

2020-04-01
1

HBase原理

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在...

2020-03-25
1