最新 最热

高性能sparkStreaming 实现

在讲解sparkStreaming优化方法之前先看几个sparkStreaming的监控指标:

2022-04-18
1

【推荐】Spark知识点

客户那边需要快速出一个版本,开发的这块使用到的之前没怎么用过,比如用oozie调度spark程序时候,你可能在你本地调试代码没有问题,上传到集群上之后,运行就出各种错,加上我们使用的服务器配置很差,导致各种服务需要的资源都不...

2022-04-14
1

3.14VR行业大事件:奥迪宣布MIB 3车型6月全面支持Holoride VR驾乘娱乐

(VRPinea 3月14日讯)今日重点新闻:奥迪宣布MIB 3车型6月全面支持Holoride VR驾乘娱乐,支持Pico Neo 3、Vive Flow等;AR远程协作方案商Kognitiv Spark获470万美元新融资;VR动作游戏「The Patcher」开启第二轮公测...

2022-04-14
1

大数据常用技术概要

MapReduce 适合批处理任务,也就是说每天对一个大量的静态数据集进行一次处理,同样,Spark 也非常的适合批处理任务,但是 Spark 有一个子模块就是 Spark Streaming 用于实时数据流处理...

2022-04-14
1

大巧不工,袋鼠云正式开源大数据任务调度平台——Taier(太阿)

2022年2月22日,在今天这个特殊的日子里,历经多年持续迭代和千万周期实例并发调度考验的Taier(太阿)终于开源了!

2022-04-14
1

Pyspark学习笔记(五)RDD操作(二)_RDD行动操作

Pyspark学习笔记(一)—序言及目录 Pyspark学习笔记(二)— spark-submit命令 Pyspark学习笔记(三)— SparkContext 与 SparkSession Pyspark学习笔记(四)弹性分布式数据集 RDD(上) Pyspark学习笔记(四)弹性分布式数据集 RDD(下)......

2022-04-14
1

Pyspark学习笔记(五)RDD操作(一)_RDD转换操作

Pyspark学习笔记(一)—序言及目录 Pyspark学习笔记(二)— spark-submit命令 Pyspark学习笔记(三)— SparkContext 与 SparkSession Pyspark学习笔记(四)弹性分布式数据集 RDD(上) Pyspark学习笔记(四)弹性分布式数据集 RDD(下)...

2022-04-14
1

大数据生态圈如何入门?

大数据技术已经被应用到各行各业,涉及人们生活的方方面面。大数据技术大大提高了数据存储和计算能力,从而为企业快速决策提供了数据支撑,能够助力企业改进业务流程、控制成本、提高产品质量,应用大数据技术为企业核心竞争...

2022-04-13
1

Hudi小文件问题处理和生产调优个人笔记

Apache Hudi提供的一个关键特性是自我管理文件大小,这样用户就不需要担心手动维护表。

2022-04-13
1

使用Elasticsearch、Spark构建推荐系统 #2:深入分析

Elasticsearch-spark-based recommender系统方案的两个关键步骤:

2022-04-08
1