最新 最热

Spark2.3.0 RDD操作

例如,map 是一个转换操作,传递给每个数据集元素一个函数并返回一个新 RDD 表示返回结果。另一方面,reduce 是一个动作操作,使用一些函数聚合 RDD 的所有元素并将最终结果返回给驱动程序(尽管还有一个并行的 reduceByKey 返...

2019-08-07
0

Scala 学习笔记之提取器

扩展到可以应用于函数之外的值.如果 f 不是函数或方法,那么这个表达式就等同于调用:

2019-08-07
0

Spark Streaming 2.2.0 初始化StreamingContext

为了初始化 Spark Streaming 程序,必须创建一个 StreamingContext 对象,它是 Spark Streaming 所有流操作的主要入口。StreamingContext 对象可以用 SparkConf 对象创建。

2019-08-07
0

Spark2.3.0 引入Spark

Spark 2.3.0 支持用于简洁编写函数的 lambda 表达式,你也可以使用 org.apache.spark.api.java.function 包中的类。

2019-08-07
0

Flink1.4 窗口函数

在定义窗口分配器之后,我们需要在每个窗口上指定我们要执行的计算。这是窗口函数的责任,一旦系统确定窗口准备好处理数据,窗口函数就处理每个窗口中的元素。...

2019-08-07
0

Flink1.4 Operator概述

算子(Operator)将一个或多个 DataStream 转换为新的 DataStream。程序可以将多个转换组合成复杂的数据流拓扑。

2019-08-07
0

Flink1.4 内置的时间戳提取器和Watermark生成器

如Flink1.4 生成时间戳与Watermarks所介绍的,Flink提供了一个抽象类,允许程序员可以分配自己的时间戳并发送Watermark。更具体地说,可以通过AssignerWithPeriodicWatermarks或AssignerWithPunctuatedWatermarks接口来实...

2019-08-07
0

Flink HDFS Connector

此连接器提供一个 Sink,将分区文件写入 Hadoop FileSystem 支持的任何文件系统。要使用此连接器,添加以下依赖项:

2019-08-07
0

Flink1.4 生成时间戳与Watermarks

本节适用于在事件时间上运行的程序。有关事件时间,处理时间和提取时间的介绍,请参阅Flink1.4 事件时间与处理时间。

2019-08-07
0

Spark SparkSession:一个新的入口

在 Spark 1.x 中,使用 HiveContext 作为 DataFrame API 的入口显得并不直观。在 Spark 2.0 引入 SparkSession 作为一个新的入口,并且包含 SQLContext 和 HiveContext 的特性,同时为了向后兼容,两者都保留下来。SparkSess...

2019-08-07
0