最新 最热

十年项目经验面试官亲传大数据面试__大数据面试独孤九剑

本项目涉及的业务数据包括订单、运输、仓储、搬运装卸等物流环节中涉及的数据、信息。由于多年的积累、庞大的用户群,每日的订单数上千万,传统的数据处理技术已无法满足企业需求。因此通过大数据分析可以提高运输配送效...

2021-12-30
1

Hadoop+Spark+Zookeeper+Hbase集群搭建

端口开放问题 关闭防火墙systemctl stop firewalld,并在服务器开放以下端口:

2021-12-30
1

Spark3.0核心调优参数小总结

基础配置 spark.executor.memory指定Executor memory,也就是Executor可用内存上限spark.memory.offHeap.enabled堆外内存启用开关spark.memory.offHeap.size指定堆外内存大小spark.memory.fraction堆......

2021-12-28
1

spark作业12

1将sample.log的数据发送到Kafka中,经过Spark Streaming处理,将数据格式变为以下形式:commandid | houseid | gathertime | srcip | destip |srcport| destport | domainname | proxytype | prox......

2021-12-28
1

客快物流大数据项目(三):项目解决方案

干线运输指的是运输的主干线, 在主干线上有最大的运力,一般快件的运行都是由支线去向主干线去汇集, 由主干线运输过去

2021-12-27
1

Spark面试题汇总及答案(推荐收藏)

spark是借鉴了Mapreduce,并在其基础上发展起来的,继承了其分布式计算的优点并进行了改进,spark生态更为丰富,功能更为强大,性能更加适用范围广,mapreduce更简单,稳定性好。主要区别...

2021-12-27
1

Spark优化(二)----资源调优、并行度调优

在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根...

2021-12-23
1

【Spark重点难点08】Spark3.0中的AQE和DPP小总结

包括动态分区剪裁(Dynamic Partition Pruning)、自适应查询执行(Adaptive Query Execution)、加速器感知调度(Accelerator-aware Scheduling)、支持 Catalog 的数据源API(Data Source API with Catalog Supp......

2021-12-22
1

【Spark重点难点07】SparkSQL YYDS(加餐)!

Spark发展到今天,Spark SQL的方式已经是官方推荐的开发方式了。在今年的Spark 3.0大版本发布中,Spark SQL的优化占比将近50%;而像PySpark、Mllib 和 Streaming的优化占比都不超过10%,Graph的占比几乎可以忽略不计。...

2021-12-22
1

OnZoom基于Apache Hudi的流批一体架构实践

OnZoom是Zoom新产品,是基于Zoom Meeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸,OnZoom是一个综合性解决方案,为付费的Zoom用户提供创建、主持和盈利的活动,如健身课、音乐会、站立表演或即兴表...

2021-12-21
1