spark_字节宝

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day20】——Spark7

可以减少数据的体积，减少存储空间，高效存储和传输数据，不好的是使用的时候要反序列化，非常消耗CPU。配，用完了就立即回收资源，启动会麻烦一点，启动一次分配一次，会比较麻烦。...

2021-12-07

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day18】——Spark5

1）粗粒度：启动时就分配好资源，程序启动，后续具体使用就使用分配好的资源，不需要再分配资源；优点：作业特别多时，资源复用率高，适合粗粒度；缺点：容易资源浪费，假如一个job有1000个task，完成了999个，还有一个没完成，那么使用粗粒度，999...

spark SQL 机器学习神经网络深度学习

2021-12-07

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day16】——Spark3

1）用于设置RDD持久化数据在Executor内存中能占的比例，默认是0.6,，默认Executor 60%的内存，可以用来保存持久化的RDD数据。根据你选择的不同的持久化策略，如果内存不够时，可能数据就不会持久化，或者数据会写入磁盘； 2）如果持久...

Kafka spark Node.js jvm 大数据

2021-12-07

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day15】——Spark2

1）如果说HDFS是大数据时代分布式文件系统首选标准，那么parquet则是整个大数据时代文件存储格式实时首选标准。 2）速度更快：从使用spark sql操作普通文件CSV和parquet文件速度对比上看，绝大多数情况会比使用csv等普通文件速...

spark SQL 文件存储大数据

2021-12-07

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day14】——Spark1

为什么要进行持久化？ spark所有复杂一点的算法都会有persist身影，spark默认数据放在内存，spark很多内容都是放在内存的，非常适合高速迭代，1000个步骤只有第一个输入数据，中间不产生临时数据，但分布式系统风险很高，所以容易出...

yarn Node.js spark mapreduce

2021-12-07

一道Spark练习题

涉及的知识点 (1)Local:运行在一台机器上，通常是练手或者测试环境。 (2)Standalone:构建一个基于 Master+Slaves 的资源调度集群，Spark 任务提交给 Master 运行。是 Spark 自身的一个调度系统。 (3)Yarn: Spark 客户端...

spark yarn Node.js

2021-12-07

大数据必知必会系列——面试官问能不能手写一个spark程序？[新星计划]

学习大数据差不多一年了，笔者最近在整理大数据学习的笔记资料，这个系列是整理的一些大数据必知必会的知识。

spark 大数据

2021-12-07

Spark案例库V1.0版

基于Spark框架使用Scala语言编程实现词频统计WordCount程序，将符号数据过滤，并统计出现的次数

xml maven 缓存 hbase spark

2021-12-07

手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark

两个主要方面的业务： ⚫ 第一个、数据【ETL 处理】 ◼依据IP地址，调用第三方库解析为省份province和城市city； ◼将ETL后数据保存至PARQUET文件（分区）或Hive 分区表中； ⚫ 第二个、数据【业务报表】 ◼读取Hive Table中广告...

hive spark tcpip 云数据库SQLServer Python

2021-12-07

11月大数据面试题复习

2 为什么要前后端分离开发？前后端分离开发的优势和劣势？让专业的人做专业的事情优势：分工明确，各司其职劣质：前后端联调需要消耗比较多的时间...

spark 大数据编程算法对象存储 mapreduce

2021-12-06

74 75 76 77 78

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day20】——Spark7

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day18】——Spark5

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day16】——Spark3

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day15】——Spark2

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day14】——Spark1

一道Spark练习题

大数据必知必会系列——面试官问能不能手写一个spark程序？[新星计划]

Spark案例库V1.0版

手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark

11月大数据面试题复习

热门文章

热门手册