最新 最热

Spark流计算Structured Streaming实践总结

Structured Streaming是基于Spark SQL引擎的可扩展、可容错流计算引擎。用户可以向使用批计算一样的方式使用流计算。Spark SQL持续增量计算流数据输出结果。目前支持多种开发语言Scala、Java、Python、R等等。通过ch...

2024-08-30
3

腾讯云流计算Oceanus:首创弹性包年包月集群,助力流量波动业务降本20%

在实际业务场景中,很多客户的作业存在波动,资源需求有固定和弹性部分,包年包月和按量计费模式无法很好地贴合业务场景。腾讯云大数据流计算 Oceanus 首创弹性包年包月计费模式,打破了传统计费模式的局限性,为用户提供更加...

2024-07-29
1

Flink 十周年专访莫问:存算分离 2.0 架构的探索与展望

Flink 从 2014 年诞生之后,已经发展了将近 10 年,尤其是最近这些年得到了飞速发展。在全球范围内,Flink 已经成为了实时流计算的事实标准,成为大数据技术栈中不可或缺的一部分。在 2023 年终盘点之际,InfoQ 有幸采访了 Apa...

2024-01-23
2

比流计算资源效率最高提升 1000 倍,“增量计算”新模式能否颠覆数据分析?

数据平台领域发展 20 年,逐渐成为每个企业的基础设施。作为一个进入“普惠期”的领域,当下的架构已经完美了吗,主要问题和挑战是什么?在 2023 年 AI 跃变式爆发的大背景下,数据平台又该如何演进,以适应未来的数据使用场景?...

2023-11-01
1

TuGraph Analytics图计算快速上手之K-core算法

K-Core算法是一种用来在图中找出符合指定核心度的紧密关联的子图结构,在K-Core的结果子图中,每个顶点至少具有k的度数,且所有顶点都至少与该子图中的 k 个其他节点相连。K-Core通常用来对一个图进行子图划分,通过去除不重...

2023-09-04
2

如何在Kubernetes 部署运行flink

Kubernetes 是目前非常流行的容器编排系统,在其之上可以运行 Web 服务、大数据处理等各类应用。这些应用被打包在一个个非常轻量的容器中,我们通过声明的方式来告知 Kubernetes 要如何部署和扩容这些程序,并对外提供服务...

2023-07-29
2

Flink 非确定性更新(NDU)问题探索和规避

非确定性函数(Non-Deterministic Functions)一直是影响流处理系统状态匹配的梦魇。例如用户在定义源表时,某个虚拟列字段调用了 RAND()、NOW()、UUID() 等函数;那么每次作业崩溃后重新运行,即使输入的数据流完全一致,输出结...

2022-11-24
2

(4)SparkSQL中如何定义UDF和使用UDF

Spark SQL中用户自定义函数,用法和Spark SQL中的内置函数类似;是saprk SQL中内置函数无法满足要求,用户根据业务需求自定义的函数。

2022-09-26
2

(2)sparkstreaming滚动窗口和滑动窗口演示

一、滚动窗口(Tumbling Windows) 滚动窗口有固定的大小,是一种对数据进行均匀切片的划分方式。窗口之间没有重叠,也不会有间隔,是“首尾相接”的状态。滚动窗口可以基于时间定义,也可以基于数据个数定义;需要的参数只有一个,...

2022-09-05
2

(6)Flink CEP SQL模拟账号短时间内异地登录风控预警

(1)通过将xxx平台用户登录时的登录日志发送到kafka(本文代码演示用的socket);

2022-08-30
1