最新 最热

Apache SeaTunnel 分布式数据集成平台

随着互联网流量爆发式增长,越来越多的公司业务需要支撑海量数据存储,对高并发、高可用、高可扩展性等特性提出了更高的要求,这促使各种类型的数据库快速发展,至今常见数据库已经达到 200 多个。与之相伴的便是,各种数据库...

2022-04-01
1

【Flink】第一篇:涌现

转眼换工作已有5个月之久。从到新公司后就开始从事建设Flink实时数仓相关的设计和开发工作。排坑无数,收货满满。从这篇开始会写一些和Flink实时数仓相关的文章。...

2022-03-31
1

【Spark】Spark之how

Java中,函数需要作为实现了Spark的org.apache.spark.api.java.function包中的任一函数接口的对象来传递。(Java1.8支持了lamda表达式)

2022-03-31
1

【Spark】Spark之what

Spark:通用大数据快速处理引擎。可以基于Hadoop上存储的大数据(HDFS、Hive、HBase等任何实现了Hadoop接口的存储系统)进行计算。

2022-03-31
1

Spark源码分析-存储实现

BlockManager是spark的存储子系统,spark涉及的RDD数据,shuffle数据,BroadCast广播变量等都是依托BlockManager来存取的。spark中的数据都以block的形式存在,block可以在BlockManager之间进行复制和同步。BlockManager之间...

2022-03-30
1

Spark源码分析-Spark-on-K8S任务调度

由于stage的划分和调度是spark作业逻辑层面上的事,不涉及到物理集群资源,我们不需要关心。

2022-03-30
1

Spark源码分析-作业提交(spark-submit)

前面提到,spark向yarn提交作业的client类是org.apache.spark.deploy.yarn.YarnClusterApplication

2022-03-30
0

Uber如何使用NLP和深度学习改进地图体验

高质量的地图数据为Uber旅行体验的许多方面提供了动力。搜索、路由和预计到达时间(ETA)预测等服务都要依靠准确的地图数据为乘客、司机、食客和投递伙伴提供安全、便捷和高效的体验。然而,地图数据会随着时间的推移而过...

2022-03-30
1

[物联网]2.3处理数据

处理服务器的作用很显然,处理服务器就是处理接收到的数据的地方。“处理”是一个抽象的词语,例如保存数据,以及转换数据以使其看上去更易懂,还有从多台传感器的数据中发现新的数据,这些都是处理。使用者的目的不同,处理服务...

2022-03-29
1

spark streaming读取kafka内容并进行反序列化

环境:scala:2.12spark:3.1.2本文介绍spark从kafka获取数据,并进行反序列化import com.fasterxml.jackson.databind.ObjectMapperimport org.apache.spark.sql.{Row, SparkSession}import...

2022-03-28
1