最新 最热

【万字长文】帮助小白快速入门 Spark

互联网时代,随着业务数据化,数据越来越多。如何用好数据,做好数据业务化,我们需要有个利器。

2022-05-27
1

Apache Kyuubi + Hudi在 T3 出行的深度实践

T3出行是一家基于车联网驱动的智慧出行平台,拥有海量且丰富的数据源。因为车联网数据的多样性,T3出行构建了以 Apache Hudi 为基础的企业级数据湖,提供强有力的业务支撑。而对于负责数据价值挖掘的终端用户而言,平台的技...

2022-05-26
0

改进Apache Hudi的标记机制

Hudi 支持在写入操作期间对存储上未提交的数据进行全自动清理。 Apache Hudi 表中的写入操作使用标记来有效地跟踪写入存储的数据文件。 在这篇博文中,我们深入探讨了现有的直接标记文件机制的设计,并解释了它在 AWS S3...

2022-05-26
1

大数据技术周报第 003 期

一是客户端、服务端需要的内存会变多(需要维护一些分区的信息,如果分区越多,这些信息所占的内存就越大)

2022-05-26
1

选择适合你的开源 OLAP 引擎

摘要:本文主要介绍了主流开源的OLAP引擎:Hive、Sparksql、Presto、Kylin、Impala、Druid、Clickhouse 等,逐一介绍了每一款开源 OLAP 引擎,包含架构、优缺点、使用场景等,希望可以给大家有所启发。...

2022-05-26
0

Spark 性能优化指南(官网文档)

由于大多数Spark组件基于内存的特性,Spark程序可能会因为集群中的任何资源而导致出现瓶颈:CPU、网络带宽或内存。通常情况下,如果数据适合于放到内存中,那么瓶颈就是网络带宽,但有时,我们还是需要内存进行一些调优的,比如以...

2022-05-26
0

5 月底,Java 又涨薪了!

最近有个朋友面试上了阿里P7,薪资暴涨了50%,我私下问他能不能给大家分析一下经验。聊了很多,最后给我推荐了一份特别全的的八股文资料,这个资料在他面试的过程中给了他很多的帮助。这份资料最初的版本,是来自某个大厂面试...

2022-05-25
1

Pyspark学习笔记(五)RDD操作(三)_键值对RDD转换操作

Pyspark学习笔记(一)—序言及目录 Pyspark学习笔记(二)— spark-submit命令 Pyspark学习笔记(三)— SparkContext 与 SparkSession Pyspark学习笔记(四)弹性分布式数据集 RDD(上) Pyspark学习笔记(四)弹性分布式数据集 RDD(下)......

2022-05-25
0

Splunk破解500M限制

vim lib/python2.7/site-packages/splunk/appserver/mrsparkle/controllers/licensing.py

2022-05-24
0

Spark离线导出Mysql数据优化之路

在业务离线数据分析场景下,往往需要将Mysql中的数据先导出到分布式存储中,如Hive、Iceburg。这个功能实现的方式有很多,但每种方式都会遇到一些问题(包括阿里开源的DataX)。本文就介绍下这个功能的优化之路,并最终给出一个...

2022-05-24
1