最新 最热

4种方式优化服务器,可以提高PHP性能

服务器是提供计算服务的设备,具有承担服务和保障服务的能力,一般来说在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面的要求较高。PHP是一种在服务器端执行的嵌入HTML文档的脚本语言,因此服务器的功能关...

2022-09-11
1

用户画像总结

最近在工作之余,结合自己的理解和论坛上的一些帖子,整理了份用户画像的文章,个人觉得这篇文章在宏观上很好地描述了用户画像的主要内容。(文章内的图片来源于不同帖子,权当分享,侵删)...

2022-09-09
1

[Delta][SQL] Delta开源付费功能,最全分析ZOrder的源码实现流程

通常为提高数据处理的效率,计算引擎要实现谓词的下推,而存储引擎可以根据下推的过滤条件尽可能的跳过无关数据或文件。不管是Hudi、Iceberg还是Delta都实现了基于min-max索引的Data-skiping技术。它指的是在元数据中都...

2022-09-07
1

Warning: Ignoring non-Spark config property: hive.exec.orc.default.stripe.size相关

在日常的处理中发现了Warning: Ignoring non-Spark config property: hive.exec.orc.default.stripe.size这样的一个日志,

2022-09-07
1

【Spark Streaming】Spark Streaming的使用

Spark Streaming是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行实时的处理,具有高吞吐量和容错能力强等特点。

2022-09-07
1

Spark Streaming Join「建议收藏」

三种思路各有优劣,使用时注意一下。这里总结在计算引擎Spark Streaming上做Join。

2022-09-07
1

Spark UI (6) - SQL页面

SQL页面展示了作业执行Spark SQL的情况, 它会按SQL层面展示一条SQL在Spark中如何解析并执行的。

2022-09-05
1

(2)sparkstreaming滚动窗口和滑动窗口演示

一、滚动窗口(Tumbling Windows) 滚动窗口有固定的大小,是一种对数据进行均匀切片的划分方式。窗口之间没有重叠,也不会有间隔,是“首尾相接”的状态。滚动窗口可以基于时间定义,也可以基于数据个数定义;需要的参数只有一个,...

2022-09-05
1

大数据spark、hadoop、hive、hbase面试题及解析[通俗易懂]

(1)spark运行流程、源码架构 https://blog.csdn.net/sghuu/article/details/103547937

2022-09-02
1