最新 最热

Halodoc使用Apache Hudi构建Lakehouse的关键经验

Halodoc 数据工程已经从传统的数据平台 1.0 发展到使用 LakeHouse 架构的现代数据平台 2.0 的改造。在我们之前的博客中,我们提到了我们如何在 Halodoc 实施 Lakehouse 架构来服务于大规模的分析工作负载。我们提到了...

2022-05-18
0

印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构

在 Halodoc,我们始终致力于为最终用户简化医疗保健服务,随着公司的发展,我们不断构建和提供新功能。我们两年前建立的可能无法支持我们今天管理的数据量,以解决我们决定改进数据平台架构的问题。在我们之前的博客中,我们谈...

2022-05-18
1

印尼医疗龙头企业Halodoc的数据平台转型之路:基于Apache Hudi的数据平台V2.0

数据平台已经彻底改变了公司存储、分析和使用数据的方式——但为了更有效地使用它们,它们需要可靠、高性能和透明。数据在制定业务决策和评估产品或 Halodoc 功能的性能方面发挥着重要作用。作为印度尼西亚最大的在线...

2022-05-18
0

印尼医疗龙头企业Halodoc的数据平台转型之路:数据平台V1.0

数据是每项技术业务的支柱,作为一个健康医疗技术平台,Halodoc 更是如此,用户可以通过以下方式与 Halodoc 交互:

2022-05-18
0

Apache Hudi如何加速传统批处理模式?

在我们的用例中1-10% 是对历史记录的更新。当记录更新时,我们需要从之前的 updated_date 分区中删除之前的条目,并将条目添加到最新的分区中,在没有删除和更新功能的情况下,我们必须重新读取整个历史表分区 -> 去重数据 -...

2022-05-18
0

2022 技术雷达峰会 - 全讲师阵容及话题发布!

2022 技术雷达峰会TECHNOLOGY RADAR SUMMIT 2022From Fragile To Agile无论是始料未及的疫情,还是开源生态中的不安定因素,都对软件的构造和协作产生了不可估量的影响,也让我们前所未有地认识到,所处的行业是如此脆弱。...

2022-05-17
0

【万字长文】数仓最全知识点整理(建议收藏)

数据仓库 Data Warehouse,是为企业所决策制定过程,提供所有支持类型的数据集合。用于分析性报告和决策支持。数仓是一个面向主题、集成的、相对稳定、反映历史变化的数据集合,随着大数据技术的发展,其作用不再局限于决策...

2022-05-17
0

《数据密集型型系统设计》LSM-Tree VS BTree

本文为《数据密集型应用系统设计》的读书笔记第一部分第三章的笔记整理,也是个人认为的这本书第一部分最重要的内容。本文将会针对目前数据库系统两个主要阵营进行展开,分别是采用日志型存储结构高速读写的LSM-Tree和面...

2022-05-17
0

实时数仓:Iceberg

作者:代来,腾讯 CSIG 工程师背景互联网技术高速发展的背景下,数据已经成为各大公司的最宝贵资源之一。大数据领域经过近十年的高速发展,无论是离线计算还是实时计算、不管是数据仓库还是数据中台都已深入各大公司的各个业...

2022-05-16
1

产品干货:​医疗大数据平台建设实践

本文作者:jayshi,腾讯CSIG产品 1. 背景和市场现状 在过去的2010-2020的十年里,国内大力投资于医疗系统信息化建设,产生并积累了大量医疗数据,迫切需要通过人工智能及大数据等技术来挖掘和实现数据价值,需要整合更加先进的技...

2022-04-27
1