最新 最热

数据湖实践 | Iceberg 在网易云音乐的实践

本文将从另一个角度为大家介绍 iceberg(结合之前推送的Iceberg快速入门,可以更深入的理解),然后分享 iceberg 在网易云音乐的一些实践,希望对大家能有所帮助。...

2021-07-05
1

SparkListener监听机制使用及自定义事件处理

Spark 提供了一系列整个任务生命周期中各个阶段变化的事件监听机制,通过这一机制可以在任务的各个阶段做一些自定义的各种动作。SparkListener便是这些阶段的事件监听接口类 通过实现这个类中的各种方法便可实现自定义...

2021-07-05
0

Hudi实践 | Apache Hudi在Hopsworks机器学习的应用

Hopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。我们构建了一个可靠且高性能的服务,以将特征物化到在线特征存储库,不仅仅保证低延迟访问,而且还保证在服务时间可以访问最新鲜...

2021-07-05
1

Hadoop和spark:兼容才是可靠的解决方案

说起大数据计算框架,Hadoop和Spark这两者之间,一直都是存在着争议的,甚至一度还出现了Spark会替代Hadoop的声音,但是随着这两年的发展,事实告诉大家,Hadoop和Spark这两者之间,谁也没有消灭谁,都好好地存在着。...

2021-07-05
1

通过Z-Order技术加速Hudi大规模数据集分析方案

多维分析是大数据分析的一个典型场景,这种分析一般带有过滤条件。对于此类查询,尤其是在高基字段的过滤查询,理论上只我们对原始数据做合理的布局,结合相关过滤条件,查询引擎可以过滤掉大量不相关数据,只需读取很少部分需要...

2021-07-05
0

Streaming与Hudi、Hive湖仓一体!

也就是,可以将HDFS和Hudi结合起来,提供对流处理的支持能力。例如:支持记录级别的更新、删除,以及获取基于HDFS之上的Change Streams。哪些数据发生了变更。...

2021-07-05
1

触宝科技基于Apache Hudi的流批一体架构实践

当前公司的大数据实时链路如下图,数据源是MySQL数据库,然后通过Binlog Query的方式消费或者直接客户端采集到Kafka,最终通过基于Spark/Flink实现的批流一体计算引擎处理,最后输出到下游对应的存储。...

2021-07-05
0

Apache Hudi在Hopsworks机器学习的应用

Hopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。我们构建了一个可靠且高性能的服务,以将特征物化到在线特征存储库,不仅仅保证低延迟访问,而且还保证在服务时间可以访问最新鲜...

2021-07-05
1

Cloudera自身升级到CDP私有云基础版

像我们的大多数客户一样,Cloudera的内部运营也非常依赖于数据。十多年来,Cloudera主要在单个生产的CDH集群上构建了内部工具和数据分析。该集群为每个部门运行工作负载-从支持的实时用户界面到Cloudera Data Platform(CD...

2021-07-02
1

从遗留发行版到CDP的四种升级和迁移路径

从遗留平台的发行版到CDP的所有路径的每种机制都有共同的工作、缓解风险和取得成功成果的方面。其中包括工作负载审查、测试和验证、管理服务级别协议(SLA)、以及在移动期间最大程度地减少工作负载的不可用。...

2021-07-02
1