最新 最热

大数据错题库(微信群Bug整理)

勤快懒人: 数据仓库 本身上讲 已经是结构化或者是半结构化的数据 数据湖 就是半结构化 +没有结构的数据 数据源更加丰富 【数据仓库或者数据湖的作用 感觉和代码复用很想 常用的抽出来】...

2021-12-07
1

客快物流项目的一些Bug

 有离线业务、也有实时业务(Lambda 架构)  基于Docker搭建异构数据源,还原企业真实应用场景  以企业主流的Spark生态圈为核心技术(SQL和Streaming)  Azkaban定时调度主题及指标统计分析  Kudu + Impala准实时分析系统  使...

2021-12-07
0

Python+大数据学习笔记(一)

pyspark: • pyspark = python + spark • 在pandas、numpy进行数据处理时,一次性将数据读入 内存中,当数据很大时内存溢出,无法处理;此外,很 多执行算法是单线程处理,不能充分利用cpu性能 spark的核心概念之一是shuffle,它...

2021-12-07
0

[Spark精进]必须掌握的4个RDD算子之filter算子

在今天的最后,我们再来学习一下,与 map 一样常用的算子:filter。filter,顾名思义,这个算子的作用,是对 RDD 进行过滤。就像是 map 算子依赖其映射函数一样,filter 算子也需要借助一个判定函数 f,才能实现对 RDD 的过滤转换。...

2021-12-07
0

SparkMllib介绍

1-ML算法,包含-机器学习分类算法、聚类算法、属性降维算法、协同过滤算法 2-特征化:特征抽取、特征转换、特征选择、特征降维 3-管道Pipeline:将数据处理或特征工程的流程按照管道的方式去串联 4-持久化Persistence:保存...

2021-12-07
0

Note_Spark_Day01:Spark 框架概述和Spark 快速入门

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-20210419160056620.png)]

2021-12-07
1

Note_Spark_Day02:Standalone集群模式和使用IDEA开发应用程序

可以发现在一个Spark Application中,包含多个Job,每个Job有多个Stage组成,每个Job执行按照DAG图进行的。

2021-12-07
0

[Spark精进]必须掌握的4个RDD算子之map算子

我们先来说说 map 算子的用法:给定映射函数 f,map(f) 以元素为粒度对 RDD 做数据转换。其中 f 可以是带有明确签名的带名函数,也可以是匿名函数,它的形参类型必须与 RDD 的元素类型保持一致,而输出类型则任由开发者自行决...

2021-12-07
0

Note_Spark_Day12: StructuredStreaming入门

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6wtQxLP6-1626354186973)(/img/image-20210506154426999.png)]

2021-12-07
0

Note_Spark_Day01:Spark 基础环境

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Rk9bK5g-1625406507847)(/img/image-20210419160056620.png)]

2021-12-07
1