最新 最热

嫌 OSS 查询太慢?看我们如何将速度提升 10 倍

HDFS 是 Hadoop 生态的默认存储系统,很多数据分析和管理工具都是基于它的 API 设计和实现的。但 HDFS 是为传统机房设计的,在云上维护 HDFS 一点也不轻松,需要投入不少人力进行监控、调优、扩容、故障恢复等一系列事情,而...

2022-03-07
0

2022年的五个大数据趋势

2021年,我们看到围绕现代数据栈的兴起出现了相当大的加速效应。我们现在有一个海啸般的通讯、影响者、投资者、专门的网站、会议和活动来宣扬它。围绕现代数据栈的概念(尽管仍处于早期阶段)与云中数据工具的爆炸性增长紧...

2022-03-04
1

20000字详解大厂实时数仓建设(好文收藏)

点击上方“芋道源码”,选择“设为星标” 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~ 中文详细注释的开源项目 RPC 框架 Dubbo 源码解...

2022-03-04
1

基于流计算 Oceanus(Flink) CDC 做好数据集成场景

作者:黄龙,腾讯 CSIG 高级工程师 数据时代,企业对技术创新和服务水准的要求不断提高,数据已成为企业极其重要的资产。无论是在在企业数据中台的建设,亦或者是打造一站式数据开发和数据治理的PASS平台。首先需要做的就是进...

2022-02-17
1

2022年的五个大数据发展趋势

2021年,我们看到围绕现代数据栈的兴起出现了相当大的加速效应。我们现在有一个海啸般的通讯、影响者、投资者、专门的网站、会议和活动来宣扬它。围绕现代数据栈的概念(尽管仍处于早期阶段)与云中数据工具的爆炸性增长紧...

2022-02-17
1

当 TiDB 遇上 Flink:TiDB 高效入湖“新玩法” | TiLaker 团队访谈

数据湖是大数据领域近年来非常火热的技术,传统数仓无法实现增量数据的实时更新,也无法支持灵活的元数据格式,数据湖技术便在这一背景下诞生了。数据库的增量变更是数据湖中增量数据的主要来源,但目前 TiDB 的入湖路径还比...

2022-02-15
0

20000字详解大厂实时数仓建设(好文收藏)

目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决...

2022-02-12
1

一文带你了解Lakehouse的并发控制:我们是否过于乐观?

如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。但到目前为止,实际完成了什么?目前有哪些方法?它们在现实世界中的表现如何?这些问题是本博客的重点。...

2022-02-08
0

流批一体技术框架探索及在袋鼠云数栈中的实践

流批一体是一种架构思想,这种思想说的是同一个业务,使用同一个sql逻辑,在既可以满足流处理计算同时也可以满足批处理任务的计算。

2022-01-26
0

一文带你了解Lakehouse的并发控制:我们是否过于乐观?

如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。但到目前为止,实际完成了什么?目前有哪些方法?它们在现实世界中的表现如何?这些问题是本博客的重点。...

2022-01-21
0