最新 最热

助力降本增效,腾讯云大数据DLC推出智能洞察功能

腾讯云数据湖计算 DLC 提供敏捷高效的 Serverless 数据湖分析与计算服务,作为分布式计算平台,其查询性能受到多项内外部因素影响,例如:引擎 CU 规模、同时提交排队的任务数量、SQL 编写形式、Spark引擎参数设置等。因此,在...

2024-08-23
0

Calcite系列(八):执行流程-计划树构建

计划树构建是SQL处理的第三步,构建出可关系代数优化的逻辑计划树RelNode,是优化器执行优化的前提。

2024-05-04
0

Calcite系列(二):核心概念-关系代数

关系模型是一种用于数据库管理的理论框架,其基础建立在数学的集合论之上。该模型由Edgar F. Codd 于1970年提出,旨在以一种严格且理论化的方式来描述数据之间的关系,使得数据操作能够通过一系列关系代数来表达。关系模型...

2024-05-04
0

Calcite系列(十一):物化视图

物化视图(Materialized View):是一种特殊的物理表,本质是预计算,是多个计算过程之间的联系建立。从数据组织层面优化数据访问效率,即把某些耗时的操作(例如JOIN、AGGREGATE)的结果保存到物理存储上,可以像表一样被访问,以便在...

2024-04-24
0

【天穹OS】虚拟表:支持极速查询的下一代湖仓一体新范式

湖仓一体(Lakehouse)是近年来比较火的大数据概念,它将数据湖(Data Lake)和数据仓库(Data Warehouse)的优势结合起来,为企业提供了更强大、更灵活的数据管理解决方案。Gartner 技术曲线的描绘中,Lakehouse是一项非常重要技术,预...

2023-10-31
0

腾讯云DLC(数据湖计算)重磅支持Apache Hudi

数据湖计算 DLC 通过类 SaaS 化的服务设计,为客户提供云原生企业级敏捷智能数据湖解决方案,具备以下特点:

2023-02-28
0

湖仓一体电商项目(二十三):离线业务统计每天用户商品浏览所获积分

使用Iceberg构建湖仓一体架构进行数据仓库分层,通过Flink操作各层数据同步到Iceberg中做到的离线与实时数据一致,当项目中有一些离线临时性的需求时,我们可以基于Iceberg各层编写SQL进行数据查询,针对Iceberg DWS层中的数...

2022-12-13
0

湖仓一体电商项目(二十四):合并Iceberg小文件

Iceberg表每次commit都会生成一个parquet数据文件,有可能一张Iceberg表对应的数据文件非常多,那么我们通过Java Api 方式对Iceberg表可以进行数据文件合并,数据文件合并之后,会生成新的Snapshot且原有Snap快照数据并不会...

2022-10-27
0

湖仓一体电商项目(二十二):实时任务执行流程

这里默认HDFS、Hive、HBase、Kafka环境已经准备,启动maxwell组件监控mysql业务库数据:

2022-10-25
0

湖仓一体电商项目(二十一):数据发布接口和数据可视化

通过Flink实时把结果数据写入Clickhouse-DM层中后,我们需要编写数据发布接口方便数据使用方调用数据结果进行可视化,数据发布接口项目为SpringBoot项目“LakeHouseDataPublish”,此Springboot接口支持mysql数据源与click...

2022-10-24
0