learn from 从0开始学大数据(极客时间)
文章目录
- 1. 两种数据库
- 2. HBase 可伸缩架构
- 3. HBase 可扩展数据模型
- 4. HBase高性能存储
1. 两种数据库
关系数据库(RDBMS)缺点:
- 糟糕的 海量数据处理能力、僵硬的设计约束
从 Google 的 BigTable 开始,一系列可以进行海量数据存储与访问的数据库被设计出来,NoSQL 这一概念被提了出来。
NoSQL,主要指非关系的、分布式的、支持海量数据存储的数据库设计模式。
关系数据库是在数据存储中包含了一部分业务逻辑 而 NoSQL 数据库则简单暴力地认为,数据库存储数据,业务逻辑由应用程序处理
2. HBase 可伸缩架构
3. HBase 可扩展数据模型
许多 NoSQL 数据库使用的 列族(ColumnFamily) 设计就是其中一个解决方案。 列族最早在 Google 的 BigTable 中使用,这是一种面向列族的稀疏矩阵存储格式,如下图所示。
支持列族结构的 NoSQL 数据库,在创建表的时候,只需要指定列族的名字,无需指定字段(Column)。 可以在数据写入时再指定。这样就可以随意扩展应用程序的数据结构了。 并且这种数据库在查询时也很方便,可以通过指定任意字段名称和值进行查询
4. HBase高性能存储
- LSM 树结构,在内存中 写操作, 读操作,先从内存中搜索,没找到则去磁盘找
- 极大减少磁盘访问次数