最新 最热

HBase集群环境配置

这里搭建一个 3 节点的 HBase 集群,其中三台主机上均为 Region Server。同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop002 上部署备用的 Master 服务。Master 服务由 Zookeeper 集群进行协调...

2022-07-27
1

HBase基本环境搭建

HBase 需要依赖 JDK 环境,同时 HBase 2.0+ 以上版本不再支持 JDK 1.7 ,需要安装 JDK 1.8+ 。JDK 安装方式见本仓库:

2022-07-27
1

Hbase系统架构及数据结构

Row Key 是用来检索记录的主键。想要访问 HBase Table 中的数据,只有以下三种方式:

2022-07-27
1

HBase简介

要想明白为什么产生 HBase,就需要先了解一下 Hadoop 存在的限制?Hadoop 可以通过 HDFS 来存储结构化、半结构甚至非结构化的数据,它是传统数据库的补充,是海量数据存储的最佳方法,它针对大文件的存储,批量访问和流式访问都...

2022-07-27
1

埋头三天才把冷热分离二期实现思路:冷数据存放到HBase给搞懂

◆ 冷热分离二期实现思路:冷数据存放到HBase◆ 冷热分离一期解决方案的不足不得不说,冷热分离一期的解决方案确实能解决写操作慢和热数据慢的问题,但仍然存在诸多不足。1)用户查询冷数据的速度依旧很慢,虽然查询冷数据的...

2022-07-26
1

翻译:The Log-Structured Merge-Tree (LSM-Tree)

高性能事务系统应用程序通常在提供活动跟踪的历史记录表;同时,事务系统生成$日志记录,用于系统恢复。这两种生成的信息都可以受益于有效的索引。众所周知的设置中的一个例子是TPC-a基准应用程序,该应用程序经过修改以支持...

2022-07-26
1

数据系统分区设计 - 分区再平衡(rebalancing)

所有这些更改都要求数据、请求可以从一个节点转移到另一个节点。 将负载从集群中的一个节点向另一个节点移动的过程称为 再平衡(rebalancing)。无论哪种分区策略,分区rebalancing通常至少要满足:...

2022-07-25
1

MLSQL插件商店插件介绍

文章装上1.5.0-SNAPSHOT版本,你就在Console中体验MLSQL的插件了。

2022-07-21
1

解决小文件问题

为了解决小文件问题,我们也是八仙过海各显神通,一般而言可能都是写个MR/Spark程序读取特定目录的数据,然后将数据重新生成N个文件。但是在以前,这种模式会有比较致命的问题,因为在生成的新文件要替换原来的文件,而替换的过...

2022-07-21
1

更新操作的秘密

让我选最核心的特性的话,我会选择第二个。在大数据领域,我们也是一步步进化的,从最早的数据存储采用纯文本,到后面ORC/Parquet等面向读的格式。但是他们都存在一个一个很大的问题,就是不可变,只增。但现实中的业务场景里太...

2022-07-21
1