最新 最热

Spark 如何使用DataSets

开发人员一直非常喜欢Apache Spark,它提供简单但功能强大的API,这些特性的组合使得用最少的代码就可以进行复杂的分析。我们通过引入 DataFrames 和 Spark SQL 继续推动 Spark 的可用性和性能。这些是用于处理结构化数...

2019-08-07
0

Spark2.3.0 共享变量

通常情况下,传递给 Spark 操作(例如 map 或 reduce)的函数是在远程集群节点上执行的,函数中使用的变量,在多个节点上执行时是同一变量的多个副本。这些变量被拷贝到每台机器上,并且在远程机器上对变量的更新不会回传给驱动...

2019-08-07
0

Flink1.4 安装与启动

Flink 可以运行在 Linux, Mac OS X和Windows上。为了运行Flink, 唯一的要求是必须在Java 7.x (或者更高版本)上安装。Windows 用户, 请查看 Flink在Windows上的安装指南。...

2019-08-07
0

Flink 如何使用ProcessFunction

ProcessFunction 函数是低阶流处理算子,可以访问流应用程序所有(非循环)基本构建块:

2019-08-07
0

Spark SQL DataFrame与RDD交互

Spark SQL 支持自动将 JavaBeans 的 RDD 转换为 DataFrame。使用反射获取的 BeanInfo 定义了表的 schema。目前为止,Spark SQL 还不支持包含 Map 字段的 JavaBean。但是支持嵌套的 JavaBeans,List 以及 Array 字段。你...

2019-08-07
0

Flink1.7发布中的新功能

Apache Flink 社区正式宣布 Apache Flink 1.7.0 发布。最新版本包括解决了420多个问题以及令人兴奋的新增功能,我们将在本文进行描述。有关更多的详细信息请查看完整目录。...

2019-08-07
0

Flink1.4 如何使用状态

Flink有两种基本的状态:Keyed State和Operator State。

2019-08-07
0

Flink1.4 重启策略

Flink支持不同的重启策略,重启策略控制在作业失败后如何重启。可以使用默认的重启策略启动集群,这个默认策略在作业没有特别指定重启策略时使用。如果在提交作业时指定了重启策略,那么此策略将覆盖集群的默认配置策略。...

2019-08-07
0

Flink1.4 并发执行

本节介绍如何在Flink中配置程序的并行执行。一个Flink程序由多个任务(transformations/operators,data sources和sinks)组成。一个任务被分成多个并发实例来执行,每个并发实例只处理任务输入数据的一个子集。一个任务的...

2019-08-07
0

Flink1.4 定义keys的几种方法

一些转换(例如,join,coGroup,keyBy,groupBy)要求在一组元素上定义一个key。其他转换(Reduce,GroupReduce,Aggregate,Windows)允许在使用这些函数之前根据key对数据进行分组。...

2019-08-07
0