HBase是一种非关系型的,分布式的,海量存储数据库。可用于大数据分析,如日志分析。来看看官网解释:
经过这几天的学习,对大数据有了一定的了解。这次在我自己的本机上安装了zookeeper、HDFS、HBase集群。并把安装时的过程记录了下来。
SQL 是一门 ANSI 的标准计算机语言,用来访问和操作数据库系统。SQL 语句用于取回和更新数据库中的数据。
最基本的存储技术。日常应用把通过各种渠道得到的数据,如关系数据库、日志、埋点、爬虫数据都存储到HDFS,供后续使用。
在环境变量中增加如下命令,可以使用 bd 快速切换到 /data/tools/bigdata
Hbase提供了跨集群的数据同步方式Replication,可通过自定义Replication Endpoint,把消息写入kafka,先来了解Hbase Replication集群之间进行复制同步的过程,整体数据复制流程如下图:...
HBase 主要用ZooKeeper来实现 HA 选举与主备集群主节点的切换、系统容错、meta-region 管理、Region 状态管理和分布式 SplitWAL 任务管理等。
ApacheFlink是一个框架和分布式处理引擎,用于在无限和有界数据流上进行有状态计算。Flink被设计成在所有常见的集群环境中运行,以内存速度和任何规模执行计算。...
17,18是计算引擎火热的两年,19年已然是红海了。计算引擎中的王者是Spark,综合指标最好,生态也好,当其他引擎还在ETL,交互查询,流上厮杀时,Spark已经在AI领域越走越远。...
ZooKeeper作为分布式协调组件,在大数据领域的其他分布式组件中往往扮演着重要的辅助角色,因此我们就算不单独去研究ZooKeeper,也短不了要接触它。本文就以最典型的HBase为例,简要介绍ZooKeeper为HBase提供了哪些功能。...