最新 最热

Apache Kyuubi:一个有趣的大数据开源项目

新粉请关注我的公众号我很久没写大数据的东西了,最主要的原因是因为我不知道写啥。这个领域里面还在发生着很多事情,但是有深度的,有意义的事情不多,有趣的事情也不多。最近看到了Apache Kyuubi这个项目,应该严格的说是Apa...

2022-05-05
1

Apache Impala 4.0技术揭秘与最新进展

展开 !function(){"use strict";var e=function(e,a){function t(e,a){var t=e.match(new RegExp(a+"\s*

2022-05-05
1

Spark SQL在雪球的实践

因为业务需要,雪球数据团队基于HDP 3.1.5(Hadoop 3.1.1+Hive 3.1.0+Tez 0.9.1)搭建了一个新的集群,HDP 3.1.5默认使用Hive3 on Tez作为ETL计算引擎,但是在使用Hive3 on Tez中,我们遇到很多问题:...

2022-05-03
1

大数据环境搭建-Sqoop

在环境变量中增加如下命令,可以使用 bd 快速切换到 /data/tools/bigdata

2022-04-27
1

大数据环境搭建-Ambari图形化环境配置工具

https://www.psvmc.cn/article/2022-03-31-bigdata-environment.html

2022-04-27
1

[离线计算-Spark|Hive] 数据近实时同步数仓方案设计

最近阅读了大量关于hudi相关文章, 下面结合对Hudi的调研, 设计一套技术方案用于支持 MySQL数据CDC同步至数仓中,避免繁琐的ETL流程,借助Hudi的upsert, delete 能力,来缩短数据的交付时间....

2022-04-27
1

[离线计算-Spark|Hive] 大数据应用性能指标采集工具改造落地

主要介绍针对平台的spark应用程序,在不修改用户程序的情况下 如何采集其资源和性能指标为后续分析使用,如性能优化,资源使用计价等.

2022-04-27
1

Mac hadoop + hive整合s3-伪分布式环境

JDK: java1.8 路径为:/Library/Java/JavaVirtualMachines/jdk1.8.0_291.jdk/Contents/Home

2022-04-26
1

大数据环境搭建-HBase和Zookeeper

HBase 主要用ZooKeeper来实现 HA 选举与主备集群主节点的切换、系统容错、meta-region 管理、Region 状态管理和分布式 SplitWAL 任务管理等。

2022-04-26
1

Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略 ​

之前笔者在介绍 Flink 1.11 Hive Streaming 新特性时提到过,Flink SQL 的 FileSystem Connector 为了与 Flink-Hive 集成的大环境适配,做了很多改进,而其中最为明显的就是分区提交(partition commit)机制。...

2022-04-25
1