spark_字节宝

【赵渝强老师】Spark生态圈组件

Spark的生态圈体系架构与Hadoop略有不同。因为在Spark中只有数据的计算部分，没有数据的存储部分，因为Spark的核心就是它的执行引擎。下图展示了Spark的生态圈体系，以及访问每个模块的访问接口。...

大数据 spark

2024-08-12

Spark纯净版 Hive on Spark配置

Apache Spark 是一个开源的统一分析引擎，旨在快速处理大规模数据。它支持多种数据处理任务，包括批处理、流处理、机器学习和图形处理，具有高性能和易于使用的特点。...

spark

2024-08-11

Zilliz 推出 Spark Connector：简化非结构化数据处理流程

以生产级别的搜索系统为例，该系统通常包含两个部分：离线数据索引和在线查询服务。实现该系统需要使用多种技术栈。例如，在离线处理中，如何将来源于多种渠道的非结构化数据数据高效、方便地处理并推送到向量数据库以实现在...

spark 服务开发数据结构化数据

2024-07-31

Spark面试题持续更新【2023-07-04】

综上所述，Spark是一个高性能、可扩展且易用的分布式计算框架，具有丰富的功能和灵活的编程接口，适用于大规模数据处理、实时流处理、机器学习和图计算等各种场景。它在大数据领域发挥着重要的作用，并受到广泛的应用和支持...

变量函数数据性能 spark

2024-07-25

【Spark数仓项目】需求三：地图位置解析进一步优化

因为全部调用高德API会造成高并发的问题，超出高德的调用规范，这也解释了为什么前面需求二我们只查找毕导用户。因此，在不给高德充钱的前提下，我们采用维表+高德api调用少数可以继续进行优化。...

集合数据优化 spark 地图

2024-07-25

Spark算子官方文档整理收录大全持续更新【Update2023/6/24】

本文基于Spark 3.2.0 Scala的RDD API，内容来源主要由官方文档整理，文中所整理算子为常用收录，并不完全。在Spark RDD官方文档中按照转换算子(Transformation )和行动算子(Action)进行分类，在RDD.scala文档中按照RDD的内部...

spark 官方文档函数排序数据

2024-07-25

【Spark数仓项目】需求六：构建设备会话维表

本需求继续针对dwd.event_log_detail表深度开发，完成对dws.mall_app_session_agr表（设备会话维表）的构建。本次需求更接近业务，查询结果可用于数据报表呈现使用。以下是需求结果字段案例：...

开发事件 HTML spark url

2024-07-25

【Spark数仓项目】需求七：漏斗模型分析

create table dwd.tmp_event_log_detail( – dwd.event_log_detail deviceid string, eventid string, properties map<string,string>, ts bigint )partitioned by (dt...

spark 模型事件统计字符串

2024-07-25

【Spark数仓项目】需求八：MySQL的DataX全量导入和增量导入Hive

本需求将模拟从MySQL中向Hive数仓中导入数据，数据以时间分区。测试两种导入场景，一种是将数据全量导入，即包含所有时间分区；另一种是每天运行调度，仅导入当天时间分区中的用户数据。...

脚本数据 spark hive MySQL

2024-07-25

Spark中使用RDD算子GroupBy做词频统计的方法

测试文件在本地D://tmp/spark.txt，Spark采用Local模式运行，Spark版本3.2.0，Scala版本2.12，集成idea开发环境。

rdd 遍历测试统计 spark

2024-07-25

1 2 3 4 5

【赵渝强老师】Spark生态圈组件

Spark纯净版 Hive on Spark配置

Zilliz 推出 Spark Connector：简化非结构化数据处理流程

Spark面试题持续更新【2023-07-04】

【Spark数仓项目】需求三：地图位置解析进一步优化

Spark算子官方文档整理收录大全持续更新【Update2023/6/24】

【Spark数仓项目】需求六：构建设备会话维表

【Spark数仓项目】需求七：漏斗模型分析

【Spark数仓项目】需求八：MySQL的DataX全量导入和增量导入Hive

Spark中使用RDD算子GroupBy做词频统计的方法

热门文章

热门手册