最新 最热

Spark案例库V1.0版

基于Spark框架使用Scala语言编程实现词频统计WordCount程序,将符号数据过滤,并统计出现的次数

2021-12-07
1

Flink系列 - 实时数仓之FlinkCDC实现动态分流实战

自从Flink出了FlinkCDC之后,我们对数据库日志的采集就变得方便了许多了,除去了MaxWell、Cannel、OGG等第三方组件的繁琐配置,目前实现CDC有两种方式:HQL实现 和 DataStreamAPI实现(推荐)。...

2021-12-06
1

【原理】数据模型&系统架构

HBase表,本质是以Key-Value的方式存储,然后使用二维表的形式进行组织。每张表都属于一个NameSpace(命名空间)之下,它是对表的逻辑分组,类似于关系数据库中的Database;利用命名空间,在多租户场景下可做到更好的资源和数据隔离...

2021-12-06
1

【简介】分布式NoSQL数据库

NoSQL是一些分布式非关系型数据库的统称,它采用非关系的数据模型,弱化模式或表结构、弱化完整性约束、弱化甚至取消事务机制,可能无法支持,或不能完整的支持SQL语句。...

2021-12-06
1

HBase数据迁移到Kafka?这种逆向操作你震惊了吗!

在实际的应用场景中,数据存储在HBase集群中,但是由于一些特殊的原因,需要将数据从HBase迁移到Kafka。正常情况下,一般都是源数据到Kafka,再有消费者处理数据,将数据写入HBase。但是,如果逆向处理,如何将HBase的数据迁移到Kafk...

2021-12-02
1

史上最全 | HBase 知识体系吐血总结

HBase 是 BigTable 的开源 Java 版本。是建立在 HDFS 之上,提供高可靠性、高性能、列存储、可伸缩、实时读写 NoSql 的数据库系统。

2021-11-23
1

Hbase数据库

基于HDFS: HDFS:hadoop distributed file system:分布式文件系统:多台服务器组成的服务器集群组成的一个文件系统。

2021-11-22
1

一款强大的可视化分布式数据同步工具

DataX Web 是在 DataX 之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用 DataX 的学习成本,缩短任务配置时间,避免配置过程中出错。用户可通过页面选择数据源即可创建数据同步任务,支持 RDBMS、Hive、H...

2021-11-17
1

上帝视角Hbase二级索引方案全解析

HBase中的一级索引指数据在写入region时,会根据rowkey进行排序后写入,之后regionserver在加载region时,会自动为当前region的rowkey创建一个LSM树的索引,方便对当前region,rowkey的查询。...

2021-11-16
1

Flink用户画像(二)推荐部分

当用户浏览该商品时就会留下浏览痕迹。此处是为了存储用户每小时点击过的品牌和点击次数。

2021-11-15
1