最新 最热

自建迁移EMR实践案例

自建开源大数据平台会随着企业数据的增长遇到:性能慢、扩容周期长、平台稳定性差、运维难、投入成本高等问题。在这里我们将从 EMR 的简介、EMR与自建Hadoop对比优势、自建迁移上云的实践案例来介绍 EMR 是如何解决这...

2024-06-13
0

「EMR 运维指南」之 Impala 关联 Sentry + Hue

在EMR集群带公网master节点部署sentry服务,Impala的GROUP组需要在Impala server节点上进行创建系统组与之关联。

2023-11-23
0

「EMR 运维指南」之 HiveServer2 启用 Custom 鉴权

HiveServer2 服务默认不启用鉴权功能,这样的话随意输入密码都能连接上,容易造成安全隐患,下面讲解下如何配置Hiveserver2 的 Custom 鉴权。这里已经编写好鉴权类代码,所以这里侧重讲配置,代码 Jar 包可以通过私信提供。...

2023-11-20
1

基于Sentry的大数据权限解决方案

Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件,截止目前还是Apache的孵化项目,它提供了细粒度级、基于角色的授权以及多租户的管理模式。Sentry当前可以和Hive/Hcatalog、Apache Solr 和Cloudera Impala集成,未...

2021-10-08
0

Hive全库数据迁移方案

考虑到多数场景是迁移整个Hive数据库,该篇文章只介绍迁移的第二种,即元数据及Hive数据全量迁移。

2021-09-26
0

基于Kerberos+Ldap复合认证的大数据权限

关于Kerberos与Ldap两个方案,此处就不再赘述,分别参考我的另外两篇文章:

2021-09-26
0

腾讯云大数据技术介绍-数据查询弹性 MapReduce

上一节我们讲到了大数据的存储 : https://cloud.tencent.com/developer/article/1878422

2021-09-16
0

Oceanus Kudu Sink总结

实时即未来,最近在腾讯云Oceanus进行实时计算服务,以下为flink写入Kudu实践中的总结。分享给大家~

2021-08-07
0

高吞吐实时事务数仓方案调研 flink kudu+impala hbase等

腾讯云数据仓库PostgreSql TDSQL,PingCAP的TiDB,阿里的OceanBase,华为云DWS,都是HTAP的业内常用数仓,可以一站式解决需求。

2021-08-07
0

通过数据组织优化加速基于Apache Iceberg的大规模数据分析

数据湖(Data lake)是一种将数据以原始格式存储在同一个系统或存储库的设计思想。它可以实现在一份数据之上进行多种数据计算,以避免为了多种计算场景而导致数据冗余存储和搬迁成本。以数据湖架构建立数据分析平台能让企...

2021-07-06
0