最新 最热

腾讯云EMR基于YARN针对云原生容器化的优化与实践

导语 | 传统HADOOP生态系统使用YARN管理/调度计算资源,该系统⼀般具有明显的资源使⽤周期。实时计算集群资源消耗主要在⽩天,而数据报表型业务则安排在离线计算集群中。离在线业务分开部署的首要问题就是资源使用率低,...

2021-06-28
0

【全网最新】如何在本地IDE Run起OpenTSDB源码

有需求了解一下Opentsdb的源码,然后想着能在本地run起来,打些断点和日志来跟一下,然后兴致勃勃去网上找了资料看看能否快速run起来,但是发现所有的博客、文档啥的好像都来自同一出处,而且最后run起来也是很模糊,按教程我还...

2021-06-19
1

HBASE BufferedMutator 批量写入使用举例与源码解析

BufferedMutator主要用来异步批量的将数据写入一个hbase表,就像Htable一样。通过Connection获取一个实例。

2021-06-04
1

基于Kerberos认证的大数据权限解决方案

Kerberos是由麻省理工(MIT)开发,对三方进行验证鉴权的服务安全管理系统。该系统很好的体现了西方三权分立的思想,其名字也很形象,来源于希腊神话地狱三个脑袋的看门狗。...

2021-03-30
1

Impala-查询调优:join 优化

本篇章继续Impala查询机制相关的探索和学习,本篇主要讲解join优化器的优化原理和思路。

2021-01-19
1

基于Alluxio优化大数据计算存储分离架构的最佳实践

近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合,计算和存储资源一体化存在以下明显的挑战:...

2021-01-08
0

秒级去重:ClickHouse在腾讯海量游戏营销活动分析中的应用

导语 | 腾讯内部每日都需要对海量的游戏营销活动数据做效果分析,而活动参与人数的去重一直是一项难点。本文将为大家介绍腾讯游戏营销活动分析系统——奕星,在去重服务上的技术思路和迭代方案,希望与大家一同交流探讨。...

2021-01-08
0

存算分离下写性能提升10倍以上,EMR Spark引擎是如何做到的?

随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择。相较 HDFS,数据存储在对象存储上可以节约存储成本,但与此同时,对象存储对海量文件...

2021-01-08
0

基于Alluxio优化大数据计算存储分离架构的最佳实践

近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合,计算和存储资源一体化存在以下明显的挑战:...

2021-01-05
1

hbase迁移EMR实践

一、业务背景:业务方需要搭建一套hbase集群,数据来源是hive表。集群数据规模:每天4.5kw个key,420亿条左右数据,平均每个key每天1000个记录。每天总数据量1.2T左右,3备份需要存储2年约2.5P。为响应公司业务上云,通过腾讯云上E...

2020-12-31
0