勤快懒人: 数据仓库 本身上讲 已经是结构化或者是半结构化的数据 数据湖 就是半结构化 +没有结构的数据 数据源更加丰富 【数据仓库或者数据湖的作用 感觉和代码复用很想 常用的抽出来】...
有离线业务、也有实时业务(Lambda 架构) 基于Docker搭建异构数据源,还原企业真实应用场景 以企业主流的Spark生态圈为核心技术(SQL和Streaming) Azkaban定时调度主题及指标统计分析 Kudu + Impala准实时分析系统 使...
pyspark: • pyspark = python + spark • 在pandas、numpy进行数据处理时,一次性将数据读入 内存中,当数据很大时内存溢出,无法处理;此外,很 多执行算法是单线程处理,不能充分利用cpu性能 spark的核心概念之一是shuffle,它...
在今天的最后,我们再来学习一下,与 map 一样常用的算子:filter。filter,顾名思义,这个算子的作用,是对 RDD 进行过滤。就像是 map 算子依赖其映射函数一样,filter 算子也需要借助一个判定函数 f,才能实现对 RDD 的过滤转换。...
1-ML算法,包含-机器学习分类算法、聚类算法、属性降维算法、协同过滤算法 2-特征化:特征抽取、特征转换、特征选择、特征降维 3-管道Pipeline:将数据处理或特征工程的流程按照管道的方式去串联 4-持久化Persistence:保存...
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-20210419160056620.png)]
可以发现在一个Spark Application中,包含多个Job,每个Job有多个Stage组成,每个Job执行按照DAG图进行的。
我们先来说说 map 算子的用法:给定映射函数 f,map(f) 以元素为粒度对 RDD 做数据转换。其中 f 可以是带有明确签名的带名函数,也可以是匿名函数,它的形参类型必须与 RDD 的元素类型保持一致,而输出类型则任由开发者自行决...
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6wtQxLP6-1626354186973)(/img/image-20210506154426999.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Rk9bK5g-1625406507847)(/img/image-20210419160056620.png)]