最新 最热

湖仓一体电商项目(二十):业务实现之编写写入DM层业务代码

DM层主要是报表数据,针对实时业务将DM层设置在Clickhouse中,在此业务中DM层主要存储的是通过Flink读取Kafka “KAFKA-DWS-BROWSE-LOG-WIDE-TOPIC” topic中的数据进行设置窗口分析,每隔10s设置滚动窗口统计该窗口内访问...

2022-10-24
1

湖仓一体电商项目(十六):业务实现之编写写入ODS层业务代码

由于本业务涉及到MySQL业务数据和用户日志数据,两类数据是分别采集存储在不同的Kafka Topic中的,所以这里写入ODS层代码由两个代码组成。

2022-10-21
1

湖仓一体电商项目(十五):实时统计商品及一级种类、二级种类访问排行业务需求和分层设计及流程图

用户登录系统后会浏览商品,浏览日志通过日志采集接口采集到Kafka “KAFKA-USER-LOG-DATA”topic中,每个用户浏览商品的日志信息中都有浏览的商品编号以及当前商品所属的二级分类信息,我们需要根据用户在网站上浏览的日志...

2022-10-20
1

大数据架构系列:如何理解湖仓一体

这十多年大数据技术蓬勃发展,从市场的表现来看基于大数据的数据存储和计算是非常有价值的,其中以云数据仓库为主打业务的公司Snowflake市值最高(截止当前449亿美元),另一家以湖仓一体为方向公司Databricks估值或达380亿美...

2022-10-17
1

Impala be query plan2 - AdmissionController

AdmissionController 用于根据在一个或多个资源池中配置的可用集群资源限制请求(例如查询、DML)。请求将被允许立即执行、排队等待稍后执行或拒绝(立即或排队后)。资源池可以配置为具有最大并发查询数、最大集群范围内存...

2022-09-28
0

个推TechDay直播回顾 | 分享基于Flink的实时数仓搭建秘诀 附课件下载

近日,个推TechDay“治数训练营”系列直播课第二期举办。来自每日互动(个推)的资深数据研发工程师为大家详细解读了实时数仓架构演进,分享了实时数仓的技术选型要点,并结合实战案例详细剖析实时数仓搭建秘诀。...

2022-09-05
1

李呈祥:bilibili在湖仓一体查询加速上的实践与探索

导读:本文主要介绍哔哩哔哩在数据湖与数据仓库一体架构下,探索查询加速以及索引增强的一些实践。主要内容包括:

2022-06-15
1

Impala tpc-h sql optimize

Impala tpc-h sql 优化因为impala 现在优化器还差点劲,只能手动改改SQL 提升下性能下期发 impala-kudu 性能优化一个数量级(测试集 TPC-H 1TB)q1_pricing_summary_report.sqlEXPLAIN SELECT L_RETURNFLAG......

2022-05-12
0

腾讯云原生智能数据湖发布会将开,首次透露腾讯云数据湖产品全景矩阵

随着“大数据中心”被列为国家新基建核心项目之一,数据和数据分析变得尤为的重要。对于企业来说,不仅越来越多的业务向以云为中心的基础架构转移,而且对于数据洞察敏捷度的要求也越来越高。这就促使数据分析者和领导者必...

2021-05-12
0

云端数智新引擎,腾讯云原生数据湖计算重磅发布

针对以上痛点, 腾讯云发布云原生数据湖计算服务,协同腾讯云端数据湖体系,帮助企业高效构建云端数据湖架构、降低数据计算成本,提升数据分析敏捷性、激发数据应用价值,助力企业数字化决策。...

2021-03-31
0