最新 最热

实操 | Hive 数据倾斜问题定位排查及解决

多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。...

2021-09-22
1

打造大数据平台底层计算存储引擎 | Apache孵化器迎来Linkis!

微众银行开源项目Linkis正式通过Apache软件基金会(ASF)的投票表决,全票通过进入ASF孵化器!

2021-09-22
1

Flink重点难点:Flink Table&SQL必知必会(二)

介绍了 Flink Table & SQL的一些核心概念,本部分将介绍 Flink 中窗口和函数。

2021-09-22
0

【硬刚大数据】从零到大数据专家面试篇之SparkSQL篇

Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等,制约了Spark各个组件之间的相互集成,因此Spark SQL应运而生。...

2021-09-18
0

Hive文件存储格式和Hive数据压缩小总结

HiveQL语句最终都将转换成为hadoop中的MapReduce job,而MapReduce job可以有对处理的数据进行压缩。

2021-09-18
1

Apache InLong重磅发布 0.10.0 版本,着力降低用户使用门槛

导语:Apache InLong 以腾讯内部使用的TDBank为原型,依托万亿级别的数据接入和处理能力,整合了数据采集、汇聚、存储、分拣数据处理全流程,拥有简单易用、灵活扩展、稳定可靠等特性。 Apache InLong(孵化中) 刚刚发布了 0...

2021-09-18
0

【重磅】Apache InLong(incubating) 发布 0.10.0 版本

| 导语 Apache InLong 以腾讯内部使用的TDBank为原型,依托万亿级别的数据接入和处理能力,整合了数据采集、汇聚、存储、分拣数据处理全流程,拥有简单易用、灵活扩展、稳定可靠等特性。 Apache InLong(incubating) 刚刚发...

2021-09-18
0

企业级数据迁移(sqoop建议收藏)

在做数据导出之前,我们看一下已经完成的操作:数据分析阶段将指标统计完成,也将统计完成的指标放到Hive数据表中,并且指标数据存储到HDFS分布式文件存储系统。...

2021-09-16
1

勒索“黑马”登场:4个最危险的新兴勒索团伙

近日,Palo Alto Networks公司Unit 42的最新研究已经确定了4个新兴勒索软件组织,并表示未来它们完全有潜力成为更大的麻烦。这些组织分别为Avoslocker、Hive Ransomware、Hellokitty以及Lockbit 2.0。...

2021-09-16
0

Yarn在全局级别配置调度程序属性

这是CDP中Yarn使用系列中的一篇,之前的文章请参考<使用YARN Web UI和CLI>、<CDP 中配置Yarn的安全性>、<CDP的Yarn资源调度与管理>和<CDP中Yarn管理队列>。...

2021-09-15
1