最新 最热

Flume简单介绍

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。...

2022-12-01
1

大数据物流项目:Kudu 入门使用(五)

KUDU 支持用户对一个表指定一个范围分区规则和多个 Hash 分区规则,如下图:

2022-11-30
1

大数据Kudu(二):Kudu架构

Kudu有自己的数据存储模型,不依赖于HDFS、Hive、HBase其他大数据组件。Kudu有自己的集群,数据存储在Kudu自己的集群Tablet Server中。

2022-11-29
1

大数据Kudu(一):什么是Kudu

结构化数据存储在Hadoop生态系统中,分为静态数据和动态数据两类。静态数据指的是需要进行数据分析的数据,这种分析针对的数据量一般很大,例如:统计全年每个地区总营业额。动态数据指的是数据需要实时动态插入、更新、读取...

2022-11-28
1

学大数据必懂系列之SSTable

Sorted Strings Table(SSTable)是HBase、 Cassandra等一些NoSQL数据库使用的一种持久文件格式,用于获取存储在memtables中的内存数据,对其进行排序以实现快速访问,并将其存储在磁盘上的一组持久的、有序的、不可变的文件...

2022-11-22
2

学大数据必懂系列之LSM-Tree

LSM树(Log-Structured-Merge-Tree)(日志结构合并树)是一种能够提升磁盘写入速度的数据结构,它通过将大量的磁盘随机写操作,转换为批量顺序写的方式来得到写入性能的提升。但是同时也牺牲了一部分的读性能...

2022-11-22
1

Hbase使用Coprocessor构建二级索引

Hbase默认只支持对行键的索引,那么如果需要针对其它的列来进行查询,就只能全表扫描了。表如果较大的话,代价是不可接受的,所以要提出二级索引的方案。网上的实现方法很多,华为,360等公司都有自己的方案,其中华为的已经开源,但...

2022-11-18
2

如何优雅地使用 java 连接 HBase 客户端

java 远程连接 HBase 客户端,大体分为两种方式。一种是长连接,一种是短连接。

2022-11-17
1

ftp服务器文件保存位置,ftp服务器和文件保存路径「建议收藏」

用户可以在MRS Manager界面上配置监控指标数据对接参数,使集群内各监控指标数据通过FTP或SFTP协议保存到指定的FTP服务器,与第三方系统进行对接。FTP协议未加密数据可能存在安全风险,建议使用SFTP。MRS Manager支持采集...

2022-11-16
2

【工具】之DataX-Web简单介绍

DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。用户可通过页面选择数据源即可创建数据同步任务,支持RDBMS、Hive、HBase、...

2022-11-13
4