最新 最热

docker zookeeper kafka kafka-manager 本地hbase hadoop

最近项目需要节约成本进行开发,所以要把docker利用的淋漓尽致,暂时只有一台服务器可用。 规划如下:zookeeper开启三个,kafka开启三个,hbase和hadoop在本地开启,不用docker。 参考:https://www.cnblogs.com/idea360/p/1241185...

2021-03-20
1

Hbase1.2.0-cdh5.16.2使用PREFIX_TREE编码导致集群压缩队列异常

Hbase1.X版本中PREFIX_TREE作为BlockEncoding存在bug,会造成RegionServer节点compaction queue持续升高,甚至影响flush,最终阻塞写入。本文记录了整个RegionServer异常的故障定位过程。...

2021-03-15
1

使用CDSW和运营数据库构建ML应用3:生产ML模型

在最后一部分中,我们将讨论一个演示应用程序,该应用程序使用PySpark.ML根据Cloudera的运营数据库(由Apache HBase驱动)和Apache HDFS中存储的训练数据来建立分类模型。然后,对该模型进行评分并通过简单的Web应用程序提供服...

2021-03-09
1

面试,HBase常见问题(附PPT)

大家好,我是一哥,HBase在大数据技术领域中占据了重要的作用,整理了一些面试问题,大家收藏,文末可以获取PPT。

2021-03-09
1

国产分布式DB中的王者出现

我们处在一个最好的时代,有ZY高层的政策支持,未来10年国产数据库将得到空前的发展。 DB领域有位大神说:分布式数据库一定是未来,HTAP 是最好的方向,云原生是最好的舞台,然而这些优点TiDB 全都有。...

2021-03-08
1

漫画全面解释Spark企业调优点

一般企业中,物理机器的cpu:内存基本上都是1:4+,比如机器24core,一般有128GB及以上内存;48core,一般有256GB及以上内存。

2021-03-05
1

HBase运维:如何逆向修复HBase元数据表

最近知识星球有人问浪尖,自己的hbase集群元数据丢失了,但是数据还在,是否能够修复,其实这种情况下利用数据的hfile去修复元数据很常见,也有很多时候我们是生成hfile加载进hbase。...

2021-03-05
1

Kylin 最佳实践|爱奇艺如何处理千亿级数据

爱奇艺发展的大体时间线,2015 年前以离线分析为主,技术上是经典的 Hive + MySQL 方案,但缺点是报表查询比较慢,而且数据时效性差;2016 - 2018 年致力于将查询耗时提升至交互式级别,分为两大类:Kylin 针对固定报表,在维度比较...

2021-03-05
1

【开发实践】美团为什么开发 Kylin On Druid(上)?

在大数据分析领域,Apache Kylin 和 Apache Druid (incubating) 是两个普遍使用的 OLAP 引擎,都具有支持在超大数据上进行快速查询的能力。在一些对大数据分析非常依赖的企业,往往同时运行着 Kylin 和 Druid 两套系统,服务于...

2021-03-05
1

【开发实践】美团为什么开发 Kylin On Druid(下)?

在上篇文章里,我们比较了 Kylin 和 Druid 这两个重要的 OLAP引擎的特点,也分析了 Kylin on HBase 的不足,得出了使用 Druid 代替 HBase 作为 Kylin 存储的方案,最后介绍了美团开发的 Kylin on Druid 的架构和流程。在这篇...

2021-03-05
1