最新 最热

【赵渝强老师】Spark生态圈组件

Spark的生态圈体系架构与Hadoop略有不同。因为在Spark中只有数据的计算部分,没有数据的存储部分,因为Spark的核心就是它的执行引擎。下图展示了Spark的生态圈体系,以及访问每个模块的访问接口。...

2024-08-12
1

Spark纯净版 Hive on Spark配置

Apache Spark 是一个开源的统一分析引擎,旨在快速处理大规模数据。它支持多种数据处理任务,包括批处理、流处理、机器学习和图形处理,具有高性能和易于使用的特点。...

2024-08-11
1

Zilliz 推出 Spark Connector:简化非结构化数据处理流程

以生产级别的搜索系统为例,该系统通常包含两个部分:离线数据索引和在线查询服务。实现该系统需要使用多种技术栈。例如,在离线处理中,如何将来源于多种渠道的非结构化数据数据高效、方便地处理并推送到向量数据库以实现在...

2024-07-31
1

Spark面试题持续更新【2023-07-04】

综上所述,Spark是一个高性能、可扩展且易用的分布式计算框架,具有丰富的功能和灵活的编程接口,适用于大规模数据处理、实时流处理、机器学习和图计算等各种场景。它在大数据领域发挥着重要的作用,并受到广泛的应用和支持...

2024-07-25
1

【Spark数仓项目】需求三:地图位置解析进一步优化

因为全部调用高德API会造成高并发的问题,超出高德的调用规范,这也解释了为什么前面需求二我们只查找毕导用户。因此,在不给高德充钱的前提下,我们采用维表+高德api调用少数可以继续进行优化。...

2024-07-25
2

Spark算子官方文档整理收录大全持续更新【Update2023/6/24】

本文基于Spark 3.2.0 Scala的RDD API,内容来源主要由官方文档整理,文中所整理算子为常用收录,并不完全。在Spark RDD官方文档中按照转换算子(Transformation )和行动算子(Action)进行分类,在RDD.scala文档中按照RDD的内部...

2024-07-25
1

【Spark数仓项目】需求六:构建设备会话维表

本需求继续针对dwd.event_log_detail表深度开发,完成对dws.mall_app_session_agr表(设备会话维表)的构建。 本次需求更接近业务,查询结果可用于数据报表呈现使用。 以下是需求结果字段案例:...

2024-07-25
1

【Spark数仓项目】需求七:漏斗模型分析

create table dwd.tmp_event_log_detail( – dwd.event_log_detail deviceid string, eventid string, properties map<string,string>, ts bigint )partitioned by (dt...

2024-07-25
1

【Spark数仓项目】需求八:MySQL的DataX全量导入和增量导入Hive

本需求将模拟从MySQL中向Hive数仓中导入数据,数据以时间分区。测试两种导入场景,一种是将数据全量导入,即包含所有时间分区;另一种是每天运行调度,仅导入当天时间分区中的用户数据。...

2024-07-25
2

Spark中使用RDD算子GroupBy做词频统计的方法

测试文件在本地D://tmp/spark.txt,Spark采用Local模式运行,Spark版本3.2.0,Scala版本2.12,集成idea开发环境。

2024-07-25
3