最新 最热

日志采集系统flume和kafka有什么区别及联系,它们分别在什么时候使用,什么时候又可以结合?

日志采集。线上数据一般主要是落地文件或者通过socket传输给另外一个系统。这种情况下,你很难推动线上应用或服务去修改接口,直接向kafka里写数据。这时候你可能就需要flume这样的系统帮你去做传输。...

2022-09-10
2

大数据开发常见面试问题总结「建议收藏」

②NameNode 向Client返回可以可以存数据的 DataNode 这里遵循机架感应原则;

2022-09-08
1

图解图库JanusGraph系列-图分区(JanusGraph Partitioning)

当JanusGraph部署在具有多个存储后端实例的集群上时,图将被分区存储在这些后端实例上。

2022-09-07
1

关于fastjson在Object转String时的一个坑

在公司的业务中有这么一个场景:需要将某个系统的结果对象放进Hbase中,然后被后续系统读取使用,在Hbase存储的时候,需要将对象中每个属性解析成字符串存入,但一开始存入接口的设计者只考虑了普通类型(Integer、Long、String...

2022-09-05
2

HBase面试题「建议收藏」

(1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。 (2) Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。 (3) Hbase为nul...

2022-09-05
1

Hbase面试题(面经)整理

Hbase 中的每张表都通过行键 (rowkey) 按照一定的范围被分割成多个子表(HRegion),默认一个 HRegion 超过 256M 就要被分割成两个,由 HRegionServer 管理,管理哪些 HRegion 由 Hmaster 分配。 HRegion 存取一个子表时,会创建...

2022-09-04
1

Hbase面试题(持续更新)「建议收藏」

1)百亿数据:证明数据量非常大 2)存入HBase:证明是跟HBase的写入数据有关 3)保证数据的正确:要设计正确的数据结构保证正确性 4)在规定时间内完成:对存入速度是有要求的...

2022-09-04
2

hbase面试题整理

(1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。 (2) Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。 (3) Hbase为nul...

2022-09-04
1

SSTable详解

几年前在读Google的BigTable论文的时候,当时并没有理解论文里面表达的思想,因而囫囵吞枣,并没有注意到SSTable的概念。再后来开始关注HBase的设计和源码后,开始对BigTable传递的思想慢慢的清晰起来,但是因为事情太多,没有安...

2022-09-03
2

HBase常见面试题[通俗易懂]

读: 找到要读数据的region所在的RegionServer,然后按照以下顺序进行读取:先去BlockCache读取,若 BlockCache没有,则到Memstore读取,若Memstore中没有,则到HFile中去读。 写: 找到要写数据的region所在的RegionServer,然后先将...

2022-09-03
1