最新 最热

构建技术中台——基于SQL的批流一体化ETL

本文介绍了 SparkSQL 和 Flink 对于批流支持的特性以及批流一体化支持框架的难点。在介绍批流一体化实现的同时,重点分析了基于普元 SparkSQL-Flow 框架对批流支持的一种实现方式。希望对大家的工作有所帮助,也希望能对...

2020-12-24
1

大数据基础:Spark工作原理及基础概念

导语 | Apache Spark 是专为大规模数据处理而设计的快速通用计算引擎,在数据挖掘和机器学习领域有着广泛的应用,现在也已形成一个高速发展、应用广泛的生态系统。本文将为大家详细介绍 Spark 的核心技术原理,希望与大家...

2020-12-23
1

【云+社区年度征文】大数据常用技术梳理

从上图我们可以看到, 从事大数据方向可以有很多具体方向的职位. 相较于Java开发, 选择面更加广泛

2020-12-22
1

sparkstreaming遇到的问题

这篇文章介绍sparkstreaming对接kafka时遇到的两个offset的问题,首选我们介绍下offset的存储。

2020-12-18
1

基于大数据技术的开源在线教育项目

毫无疑问最近几年是在线教育和内容付费的风口期,尤其是今年,大量做教育的公司都获得数额不小的投资。我们不是要去追这个风口,而是因为在线教育的成熟,开始产生巨量有价值的数据,率先采用和融合大数据和AI技术的公司,必将强...

2020-12-18
1

关于yarn的job运行时文件描述符问题

而且还在增加,遇到文件描述符问题,一般都是yarn的job问题,于是登到相关报错的几台机器上执行top命令查看对应的pid

2020-12-18
1

Spark Connector Reader 原理与实践

本文主要讲述如何利用 Spark Connector 进行 Nebula Graph 数据的读取。

2020-12-17
1

大数据入门:Spark RDD、DataFrame、DataSet

在Spark的学习当中,RDD、DataFrame、DataSet可以说都是需要着重理解的专业名词概念。尤其是在涉及到数据结构的部分,理解清楚这三者的共性与区别,非常有必要。今天的大数据入门分享,我们就主要来讲讲Spark RDD、DataFrame...

2020-12-15
1

Java Spark RDD编程:常见操作、持久化、函数传递、reduce求平均

RDD是Spark的核心抽象,全称弹性分布式数据集(就是分布式的元素集合)。Spark中对数据的所有操作无外乎创建RDD、转化已有RDD和调用RDD的操作进行求值。Spark 会自动将  RDD 中的数据分发到集群上,并将操作并行化执行  RD...

2020-12-15
1

大数据入门:Spark持久化存储策略

持久化存储是Spark非常重要的一个特性,通过持久化存储,提升Spark应用性能,以更好地满足实际需求。而Spark的持久化存储,根据不同的需求现状,可以选择不同的策略方案。今天的大数据入门分享,我们就来具体讲讲Spark持久化存储...

2020-12-14
1