最新 最热

【Hadoop入门】Hadoop的架构介绍

分析:Hadoop的核心组件分为:HDFS(分布式文件系统)、MapRuduce(分布式运算编程框架)、YARN(运算资源调度系统)

2020-07-14
1

CDP-DC中部署Hive Server

在CDP-DC集群中,hive服务默认只有Metastore角色,Hive Server角色需要在Hive on Tez服务中,Hive默认使用Hive on Tez引擎。

2020-07-14
1

Hive常用窗口函数实战

本文介绍了Hive常见的序列函数,排名函数和窗口函数。结合业务场景展示了Hive分析函数的使用

2020-07-13
0

如何在CDH5.16.2中安装Python Impyla

文档编写目的整理CDH5中安装Impyla的步骤集群环境CDH5.16.2anaconda3python3.7组件介绍Impyla:适用于分布式查询引擎的HiveServer2实现(例如Impala,Hive)的Python客户端。Impyla依赖包sixbit_arraythriftpy......

2020-07-10
1

大数据与云计算技术周报(第150期)

影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。...

2020-07-10
0

如何从0到1搭建大数据平台

大数据时代这个词被提出已有10年了吧,越来越多的企业已经完成了大数据平台的搭建。随着移动互联网和物联网的爆发,大数据价值在越来越多的场景中被挖掘,随着大家都在使用欧冠大数据,大数据平台的搭建门槛也越来越低。借助...

2020-07-02
0

0787-6.3.3-如何在本地集群安装Workload Experience Manager(WXM)

Workload XM是Cloudera现代数据平台以工作负载为中心的管理工具,可主动分析数据仓库、数据工程和机器学习环境的工作负载,提升应用程序性能,以及优化基础架构的容量配置。Workload XM与Cloudera Enterprise平台内的多种...

2020-06-29
1

zookeeper源码分析(5)-序列化协议

在网络传输时,传输的是二进制数据,所以发送端需要将序列化对象转变为二进制数据,也就是序列化过程。接收端需要将二进制数据转化为序列化对象,也就是反序列化过程。在序列化和反序列化过程中,需要定义一种对数据相互转变的...

2020-06-22
0

《你问我答》第四期 | 进一步讲解SuperSQL、Oceanus以及Tbase

各位小伙伴们大家好,我们又见面啦~ 这里是《你问我答》栏目第四期 上周推送了一篇关于腾讯SuperSQL的文章 《「解耦」方能「专注」——腾讯天穹SuperSQL跨引擎计算揭秘》 很多同学对这个项目产生了浓厚的兴趣 本期,我们...

2020-06-22
1

hbase 面试问题汇总

(2)、无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态增加,同一个表中的不同行的可以有截然不同的列。

2020-06-19
1