最新 最热

别扯数据化转型了,先夯实数据底座吧

2019-2021 人人都提数据中台,张口就说业务数据化、数据业务化,数据驱动业务,甚至数据重塑业务;如今大家又与时俱进开始侃侃而谈数据化转型。在我们讨论数据化转型、数据中台、数据云时候都离不开一个稳定可持续迭代的数据...

2022-10-28
1

基于Apache Hudi + MinIO 构建流式数据湖

Apache Hudi 是一个流式数据湖平台,将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式,它提供表、事务、更新/删除、高级索引、流式摄取服务、数据聚簇/压缩...

2022-10-28
0

Byzer + OpenMLDB 实现端到端的,基于实时特征计算的机器学习流程

本文示范如何使用OpenMLDB和 Byzer-lang 联合完成一个完整的机器学习应用。Byzer-lang 作为面向大数据和AI的一门语言,通过 Byzer-Notebook 和用户进行交互,用户可以轻松完成数据的抽取,ETL,特征/模型训练,保存,部署到最后...

2022-10-27
1

湖仓一体电商项目(二十四):合并Iceberg小文件

Iceberg表每次commit都会生成一个parquet数据文件,有可能一张Iceberg表对应的数据文件非常多,那么我们通过Java Api 方式对Iceberg表可以进行数据文件合并,数据文件合并之后,会生成新的Snapshot且原有Snap快照数据并不会...

2022-10-27
1

湖仓一体电商项目(二十二):实时任务执行流程

这里默认HDFS、Hive、HBase、Kafka环境已经准备,启动maxwell组件监控mysql业务库数据:

2022-10-25
1

湖仓一体电商项目(二十一):数据发布接口和数据可视化

通过Flink实时把结果数据写入Clickhouse-DM层中后,我们需要编写数据发布接口方便数据使用方调用数据结果进行可视化,数据发布接口项目为SpringBoot项目“LakeHouseDataPublish”,此Springboot接口支持mysql数据源与click...

2022-10-24
1

湖仓一体电商项目(二十):业务实现之编写写入DM层业务代码

DM层主要是报表数据,针对实时业务将DM层设置在Clickhouse中,在此业务中DM层主要存储的是通过Flink读取Kafka “KAFKA-DWS-BROWSE-LOG-WIDE-TOPIC” topic中的数据进行设置窗口分析,每隔10s设置滚动窗口统计该窗口内访问...

2022-10-24
1

湖仓一体电商项目(十六):业务实现之编写写入ODS层业务代码

由于本业务涉及到MySQL业务数据和用户日志数据,两类数据是分别采集存储在不同的Kafka Topic中的,所以这里写入ODS层代码由两个代码组成。

2022-10-21
1

湖仓一体电商项目(十五):实时统计商品及一级种类、二级种类访问排行业务需求和分层设计及流程图

用户登录系统后会浏览商品,浏览日志通过日志采集接口采集到Kafka “KAFKA-USER-LOG-DATA”topic中,每个用户浏览商品的日志信息中都有浏览的商品编号以及当前商品所属的二级分类信息,我们需要根据用户在网站上浏览的日志...

2022-10-20
1

字节跳动基于 Apache Hudi 构建实时数仓的实践

导读:今天很高兴能与大家分享字节数据平台在实时数仓中的一些实践。目前在数据湖和Hudi相关的一些基本技术原理方面社区已有较多的介绍,所以我们今天的分享主要聚焦于实践部分的内容。...

2022-10-05
1