「嘉年华观会」Oceanus流式湖仓探索,弹性降本方案

2024-09-13 11:53:05 浏览数 (3)

在2024腾讯全球数字生态大会开发者嘉年华线上直播中,观看了腾讯云流计算oceanus构建流式湖仓的介绍,随笔记录下。

背景

近年来随着数字化的加速发展,企业对数据的实时处理和分析需求日益迫切。实时数据已经成为驱动业务创新,提升竞争力的核心要素。然而传统的批处理方式时效性差、数据孤岛、难以扩展等问题,无法满足现代企业对实时洞察的迫切需求。

Oceanus-流式湖仓的探索

流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的企业级实时大数据分析平台,具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点。

流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。能够帮助企业实时捕捉、处理和分析海量数据。从而实现业务决策的快速响应,提升运营效率,发掘新的增长机会。

传统上,用户会选用Lambda架构来搭建数据分析的链路。Lambda架构是比较稳定的流批数据处理的架构。让离线和实时的数据走单独的链路处理,离线链路的数据一般存储在Hive等离线处理的引擎中,并使用Spark进行多层数据的转换。实时链路的数据会单独处理,一般使用Flink Kafka的实时分层链路。最终数据会写入在线数据库和数仓中。这种架构可以实现数据库秒级的延迟,但也存在一些问题。这种链路不够灵活,kafka无法保存较长时间的数据,没办法实现数据的分析和挖掘。这种链路成本比较高,upsert-kafka依赖于本地的状态存储。Lambda架构模式的实时数据和离线数据都是走单独的链路,造成数据存储的加倍。实时计算和离线存储的逻辑也需要单独开发。

Oceanus 将实时和离线的链路进行统一。统一了数据存储,满足了以下两个要求:一是离线对数仓的数据读取,OLAP需求的分析,二是对写入的数据可以产出完整Flink兼容的changelog,可以接入到Flink作业中进行进一步的流式处理。腾讯推出了Streaming lceberg,它是基于lceberg生态的流式湖仓解决方案。

亮点:

  • 打破数据孤岛:打破了数据存储的壁垒,将离线和实时数据统一存储,避免了数据重复存储。
  • 简化运维:通过统一的数据存储和计算引擎,简化了系统运维管理。
  • 完整的changelog:生成完整的changelog,使得Flink等流处理引擎能够对数据进行增量处理。
  • 高效的更新:基于LSM Tree存储引擎,支持高效的主键更新和部分列更新。
  • 兼容lceberg生态:用户可以无缝迁移现有的lceberg查询作业。
  • 支持多种查询引擎:Spark SQL,Trino/Presto等多种查询引擎。
  • 大表优化:提高数据写入速度。
  • 压缩编码和分区优化:减小存储空间,提高查询性能。

应用场景:

  • 游戏
  • 出行
  • 教育
  • 电商

以下是一个电商行业实时订单交易数据分析场景。

Oceanus-弹性降本方案

企业面临的痛点:

  • 困难的资源管理:弹性作业导致资源浪费、用户通常需要大量时间给作业调优,实现精细化资源管理。
  • 复杂的运维管理:Flink平台的运维管理工作繁琐复杂,资源监控、作业告警、日志探索、作业事件、性能优化,需要专业技术人员进行操作和维护。
  • 弹性扩展困难:难以根据业务负载进行弹性扩展,无法满足业务快速增长的需求。

Oceanus根据以上痛点,推出了新型弹性降本方案

  • 支持弹性收缩,配合作业扩缩容灵活利用资源。
  • 低成本:弹性包年包月集群
  • 集群和平台特性:自动扩缩容、弹性伸缩、细粒度资源
  • 专家资源和作业调优:算子级别资源配置、专家作业调优
  • 运行时的监控,指标监控和事件监控
  • 智能告警,指标告警和事件告警
  • 异常诊断:一键快捷诊断和黑窗诊断
  • 支持快捷回滚:支持快照管理,从快照恢复作业
  • 日志:支持实例、时间、关键字检索

总结

在2024腾讯全球数字生态大会开发者嘉年华活动中,学习到了很多黑科技,丰富了自己的知识,激发了对技术的探索和思考,获得了很多宝贵的经验和见解。非常感谢腾讯的嘉年华活动,希望越办越好,秉持开放兼容的精神,相互学习探讨,共同合作。加油!

0 人点赞