最新 最热

2021年大数据Spark(四十三):SparkStreaming整合Kafka 0.10 开发使用

The Spark Streaming integration for Kafka 0.10 is similar in design to the 0.8 Direct Stream approach;

2021-10-09
0

2021年大数据Spark(四十四):Structured Streaming概述

Apache Spark在2016年的时候启动了Structured Streaming项目,一个基于Spark SQL的全新流计算引擎Structured Streaming,让用户像编写批处理程序一样简单地编写高性能的流处理程序。...

2021-10-09
0

Spark 系列教程(2)运行模式介绍

Apache Spark 是用于大规模数据处理的统一分析引擎,它提供了 Java、Scala、Python 和 R 语言的高级 API,以及一个支持通用的执行图计算的优化引擎。

2021-10-09
0

Spark 系列教程(1)Word Count

Spark 是一种快速、通用、可扩展的大数据分析引擎,是基于内存计算的大数据并行计算框架。Spark 在 2009 年诞生于加州大学伯克利分校 AMP 实验室,2010 年开源,2014 年 2月成为 Apache 顶级项目。...

2021-10-09
1

2021年大数据Spark(一):框架概述

Spark 是加州大学伯克利分校AMP实验室(Algorithms Machines and People Lab)开发的通用大数据出来框架。Spark生态栈也称为BDAS,是伯克利AMP实验室所开发的,力图在算法(Algorithms)、机器(Machines)和人(Person)三种之间通过大...

2021-10-09
0

2021年大数据Spark(二):四大特点

Spark 使用Scala语言进行实现,它是一种面向对、函数式编程语言,能够像操作本地集合一样轻松的操作分布式数据集。Spark具有运行速度快、易用性好、通用性强和随处运行等特点。...

2021-10-09
1

2021年大数据Spark(三):框架模块初步了解

整个Spark 框架模块包含:Spark Coke、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib,而后四项的能力都是建立在核心引擎之上 。

2021-10-09
0

2021年大数据Spark(四):三种常见的运行模式

Spark 框架编写的应用程序可以运行在本地模式(Local Mode)、集群模式(Cluster Mode)和云服务(Cloud),方便开发测试和生产部署。

2021-10-09
1

将 Kudu 数据迁移到 CDP

当您将 Kudu 数据从 CDH 迁移到 CDP 时,您必须使用 Kudu 备份工具来备份和恢复您的 Kudu 数据。

2021-10-09
0

学习这门语言两个月了,还是卡在了加减乘除这里...

因为业务需要(项目技术栈为 spark 2+ ),七八月份兴冲冲从学校图书馆借了书,学了 scala + spark ,还写了不少博文,其中有几篇被拿来发推送:Scala,一门「特立独行」的语言!、【疑惑】如何从 Spark 的 DataFrame 中取出具体某一行...

2021-10-09
1