最新 最热

Pinterest 如何通过机器学习为健康的评论生态系统提供动力

随着 Pinterest 不断从一个只保存想法的地方发展为一个发现激发行动的内容的平台,直接发布到 Pinterest 的创作者的原生内容有所增加。随着 Pinterest 上创作者生态系统的发展,我们致力于通过创作者代码等举措确保 Pint...

2022-01-19
1

Pinterest使用DrSquirrel自动诊断工具快速解决Flink问题

在 Pinterest,流数据处理支持广泛的实时用例。 近年来,由 Flink 提供支持的平台通过提供近乎实时的内容激活和指标报告,已被证明对业务具有巨大价值,并有可能在未来解锁更多用例。 然而,为了利用这种潜力,我们需要解决开发...

2022-01-19
1

使用hive查询从hudi同步的表需要注意的问题

如果没有做如下指定,有可能会得到错误结果或者执行错误。例如,有100000条数据,用flink查返回正确结果,但是在hive中,如果不做上述指定,返回了162766的结果,明显这个结果是错误的。...

2022-01-19
1

使用prometheus监控hudi相关指标

首先请安装好prometheus、pushgateway以及grafana,如果还没安装请参考:

2022-01-19
1

使用flink SQL Client将mysql数据写入到hudi并同步到hive

0.9.0版本的hudi在适配hive3时,其hudi/package/hudi-flink-bundle/pom.xml文件使用的flink-connector-hive版本有问题,所以需要修改pom文件。

2022-01-19
1

Flink SQL Client实战CDC数据入湖

本文使用datafaker工具生成数据发送到MySQL,通过flink cdc工具将mysql binlog数据发送到kafka,最后再从kafka中读取数据并写入到hudi中。

2022-01-19
1

Apache Hudi 0.9.0 版本发布

Apache Hudi 0.9.0实验性地支持使用Spark SQL进行DDL/DML操作,朝着让所有用户(非工程师、分析师等)更容易访问和操作Hudi迈出了一大步。用户可以直接使用CREATE TABLE ... USING HUDI以及CREATE TABLE ... AS SELECT语...

2022-01-19
1

使用flink插入数据到hudi数据湖初探

本文基于上述组件版本使用flink插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成,请确保hadoop集群正常启动。

2022-01-19
1

基于Flink1.13.3与hudi 0.10.0-release构建准实时数仓

本文基于Flink SQL与hudi构建准实时数仓,在Flink从kafka接入数据之后,即将所有数据存于hudi中,包括所有中间处理数据以及最终数据。文章《实时数仓|基于Flink1.11的SQL构建实时数仓探索实践 (qq.com)》描述了基于Flink S...

2022-01-18
1

Flink的类加载器

在运行 Flink 应用程序时,JVM 会随着时间的推移加载各种类。 这些类可以根据它们的来源分为三组:

2022-01-18
1