大数据架构前沿实践分享

2020-12-14 10:10:14 浏览数 (1)

12月19日,9:00-12:40,由来自腾讯数据湖研发负责人邵赛赛老师出品的DataFunTalk年终大会——大数据架构论坛,将邀请来自腾讯、Tubi、车好多、T3出行、滴滴出行等公司的6位嘉宾,就大数据架构相关主题进行分享。本次会议全程直播,详细信息如下:

01

专题论坛及日程

论坛名称

大数据架构论坛

论坛时间

12月19日,09:00-12:40

论坛出品

邵赛赛 腾讯 数据湖研发负责人

分享时间

分享内容

09:00-09:40

如何让Ozone成为HDFS的下一代分布式存储系统腾讯高级工程师毛宝龙

09:45-10:25

Data Quality Architecture in TubiTubi ( 比图科技 ) Senior Data Engineer沈达

10:30-11:10

结构化大数据链路在车好多的实践车好多大数据负责人汪涉洋

11:15-11:55

基于Apache Hudi构建数据湖上低延迟CDC的实践T3出行大数据平台负责人/资深大数据工程师杨华/刘金辉

12:00-12:40

基于滴滴开源Kafka-Manager打造专业易用的Kafka服务体系滴滴出行高级专家工程师张亮

02

论坛报名

识别二维码,免费报名

03

详细介绍

出品人:

邵赛赛

腾讯 | 数据湖研发负责人

出品人简介: 邵赛赛,腾讯大数据专家,数据湖研发负责人,Apache社区member,Spark及Livy项目PMC

分享嘉宾:

毛宝龙

腾讯 | 高级工程师

演讲者简介: 毛宝龙,来自腾讯数据湖团队,目前专注于开发Ozone,以及Alluxio在腾讯的落地和应用工作。是Ozone开源社区的committer 和 Alluxio 社区的 PMC 成员。

演讲议题:如何让Ozone成为HDFS的下一代分布式存储系统

演讲议题介绍:Ozone是当前Apache Hadoop生态圈的一款新的对象存储系统,OZone与HDFS有着很深的关系,在设计上,很多地方也参考了HDFS,并对HDFS存在的不足做了很多改进。很多公司看重的不是Ozone的对象存储能力,而是Ozone标榜自己是HDFS的下一代的目标。我们抓住了这一点,并做出了比社区Ozone Filesystem 方案更彻底的 HDFS on Ozone架构设计和实现,并取得了阶段性成绩。

听众收益:

· 了解Ozone是什么,与HDFS、S3的关系和区别

· 了解HDFS on Ozone方案相比HDFS 和 Ozone的优势

· 了解提升HDFS吞吐和元数据扩展性的方法

新技术/实用技术点:

· Ozone和Hadoop Distributed Data Store (HDDS) 的架构

· Hadoop compatible filesystem的HDDS实现

· 利用细粒度锁实现更高的服务吞吐能力

· 分层级管理元数据实现元数据无限扩展

· 基于RATIS的NameNode的HA实现

沈达

Tubi (比图科技) | Senior Data Engineer

演讲者简介: 沈达,毕业于中国科学技术大学计算机系,译有《Scala实用指南》,活跃于Scala社区,Apache Spark Contributor,目前是比图科技的Senior Data Engineer。曾基于Spark Catalyst实现过适用于金融风控场景的高性能SQL引擎。

演讲议题:Data Quality Architecture in Tubi

演讲议题介绍:介绍比图科技数据团队如何保障数据质量:及时发现潜在的数据质量问题,并针对处理。介绍比图科技数据质量系统的架构:如何构建简洁、低成本、易于维护的数据质量工作流

听众收益:了解数据质量问题的成因、影响和多种解决方案,了解各种数据质量解决方案(Deequ/Apache Griffin等)的优劣,如何设计一套合理的数据质量问题“发现-处理”的工作流程。

新技术/实用技术点:通过扩展Spark SQL实现使用SQL同时在批处理和流式处理中收集Metrics

汪涉洋

车好多 | 大数据负责人

演讲者简介: 汪涉洋,车好多集团(瓜子二手车母公司)大数据团队负责人,负责消息队列、大数据存储、流批计算引擎、OLAP引擎等技术在瓜子的落地。曾就职于hulu、redhat等公司,知乎专栏《大数据sre的思考》作者,在数据基础架构领域有多年从业经验。

演讲议题:结构化大数据链路在车好多的实践

演讲议题介绍:本次演讲主要介绍车好多集团围绕kafka生态搭建的大数据链路技术发展历程。从基于sqoop、flume等第一代数据链路,到第二代基于avro kafka connect体系的第二代链路,到当下基于数据湖hudi技术在开发的第三代数据链路,会着重讲解过程中遇到的挑战,以及每一代架构的特点及局限,最后展望本领域技术的未来。

听众收益: 大数据ingest技术最佳实践,以及发展历史。

新技术/实用技术点:kafka 、 数据湖hudi 、avro schema注册中心

杨华

T3出行 | 大数据平台负责人

杨华:T3 出行大数据平台负责人。Apache Hudi committer & PMC member。Apache Kylin committer 及 Flink Cube 引擎作者。Apache Flink 国内早期布道者及活跃贡献者。前腾讯高级工程师,曾主导 Flink 框架在腾讯从落地到支撑日均近 20 万亿消息的处理规模。

刘金辉

T3出行 | 资深大数据工程师

刘金辉:T3 资深大数据工程师

演讲议题:基于Apache Hudi构建数据湖上低延迟CDC的实践

演讲议题介绍:T3 出行是国内首家基于车联网的网约车平台,汇聚了人、车、路、云多样化的海量数据。由于出行行业长尾的支付窗口属性,我们发现传统的Hadoop数仓已经不适合我们的体系。而Apache Hudi作为一个新兴的数据湖框架正变得越来越流行,Hudi为数据湖带来了很多优秀的特性,例如记录级的Upsert/Delete、ACID事务语义、数据与存储的版本管理、增量处理、多种数据视图等等,都是相比传统数仓的巨大突破。这些特性帮助T3解决了很多问题,其中一个很大特性就是支持关系型数据库以低延迟的CDC机制往数据湖同步数据。

听众收益:

1. Apache Hudi 介绍

2. Hudi 解决了Hive数仓哪些问题

3. Hudi 在 T3 出行低延迟数据同步管道的落地实践

4. T3出行对Hudi的改进与扩展

张亮

滴滴出行 | 高级专家工程师

演讲者简介: 张亮2014年加入滴滴,主持构建过任务调度系统、监控系统、日志服务、实时计算、同步中心等平台设计与研发工作,目前在负责LogAgent、Kafka 、ElasticSearch、OLAP的引擎建设工作,具有丰富的高并发、高吞吐场景的架构设计与研发经验。

演讲议题:基于滴滴开源Kafka-Manager打造专业易用的Kafka服务体系

演讲议题介绍:滴滴开源Kafka-Manager脱胎于滴滴内部4年多的Kafka服务运营经验,服务了公司内数千Kafka用户,托管了数十Kafka集群,数万Kafka Topic,单集群>300 Broker,峰值CPU利用率>40%,面向Kafka用户、Kafka运维人员,提供了一套较完善的kafka指标体系及运维管控的能力,打造一套共享多租户kafka云平台,内部满意度达到90分!

听众收益:基于滴滴开源Kafka-Manager搭建企业级的Kafka服务运营平台

新技术/实用技术点:滴滴开源Kafka-Manager的架构与产品设计思考

04

论坛报名

识别二维码,免费报名

▽点击阅读原文,直达报名页!

0 人点赞