[记录点滴] Spark迁移到Flink的几个点

2020-09-07 16:49:57 浏览数 (3)

有三个Spark API需要找到对应的Flink API或者替代方法

reduceByKeyAndWindow 函数reduceByKeyAndWindow（ ,-,Seconds(3s),seconds(2)）设计理念是，当滑动窗口的时间Seconds(2) < Seconds(3)（窗口大小）时，两个统计的部分会有重复，那么我们就可以不用重新获取或者计算，而是通过获取旧信息来更新新的信息，这样即节省了空间又节省了内容，并且效率也大幅提升。
groupByKey() 这个居然是用来去重：groupByKey().map( a => (a.1, a._2.head)) 因为groupByKey的第二个参数就是列表，如果这个列表的元素都是相同的，则head操作就实际上起到了去重作用。
coalesce 如何替代

这个用 text.keyBy(0).timeWindow(start, end).reduce来完成

这个用text.keyBy(0).timeWindow(start, end).sum(1).filter(x => {x!=null}).map(x => x._1)

其中sum..filter().map()就起到了去重

这个目前方法是使用setParallelism(n)来限定输出文件数目。如果是csv文件，可以再加上partitionByHash。或者可以再加上一个 rebalance。

代码语言：javascript复制

wordCounts.partitionByHash(1).writeAsCsv("xxx").setParallelism(2);
text.writeAsText("xxx").setParallelism(2);

0 人点赞