最新 最热

通过Spark生成HFile,并以BulkLoad方式将数据导入到HBase

在实际生产环境中,将计算和存储进行分离,是我们提高集群吞吐量、确保集群规模水平可扩展的主要方法之一,并且通过集群的扩容、性能的优化,确保在数据大幅增长时,存储不能称为系统的瓶颈。...

2020-08-10
0

关于一些技术点的随笔记录(二)

Hive建表语句指定tblproperties('transactional'='true'),则执行插入操作时,不能直接使用insert..values语句,原因是开启了事务机制。建议使用insert..select方式。...

2020-08-10
0

Spark流式状态管理

通常使用Spark的流式框架如Spark Streaming,做无状态的流式计算是非常方便的,仅需处理每个批次时间间隔内的数据即可,不需要关注之前的数据,这是建立在业务需求对批次之间的数据没有联系的基础之上的。...

2020-08-10
0

HBase中Memstore存在的意义以及多列族引起的问题和设计

HBase在WAL机制开启的情况下,不考虑块缓存,数据日志会先写入HLog,然后进入Memstore,最后持久化到HFile中。HFile是存储在hdfs上的,WAL预写日志也是,但Memstore是在内存的,增加Memstore大小并不能有效提升写入速度,为什么还要...

2020-08-10
0

HBase高级特性、rowkey设计以及热点问题处理

在阐述HBase高级特性和热点问题处理前,首先回顾一下HBase的特点:分布式、列存储、支持实时读写、存储的数据类型都是字节数组byte[],主要用来处理结构化和半结构化数据,底层数据存储基于hdfs。...

2020-08-10
0

大数据常用技术栈

提起大数据,不得不提由IBM提出的关于大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取...

2020-08-10
0

在CDP上使用NiFi、Kafka和HBase构建可扩展流程

Navistar 是全球领先的商用卡车制造商。拥有350,000辆车的车队,计划外的维护和车辆故障会造成业务持续中断。Navistar需要一个诊断平台,该平台将帮助他们预测何时需要维修车辆从而最大程度地减少停机时间。这个平台需要...

2020-08-07
0

Apache Atlas系列 -- 部署

摘抄一段官网上的介绍,Atlas 是一个可伸缩且功能丰富的数据管理系统,深度集成了 Hadoop 大数据组件。简单理解就是一个跟 Hadoop 关系紧密的,可以用来做元数据管理的一个系统。...

2020-08-06
0

Hbase 基础面试题

(1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。

2020-08-05
0

HBase面试题

(1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。

2020-08-05
0