12月19日,9:00-12:40,由来自腾讯数据湖研发负责人邵赛赛老师出品的DataFunTalk年终大会——大数据架构论坛,将邀请来自腾讯、Tubi、车好多、T3出行、滴滴出行等公司的6位嘉宾,就大数据架构相关主题进行分享。本次会议全程直播,详细信息如下:
01
专题论坛及日程
论坛名称 | 大数据架构论坛 |
---|---|
论坛时间 | 12月19日,09:00-12:40 |
论坛出品 | 邵赛赛 腾讯 数据湖研发负责人 |
分享时间 | 分享内容 |
09:00-09:40 | 如何让Ozone成为HDFS的下一代分布式存储系统腾讯高级工程师毛宝龙 |
09:45-10:25 | Data Quality Architecture in TubiTubi ( 比图科技 ) Senior Data Engineer沈达 |
10:30-11:10 | 结构化大数据链路在车好多的实践车好多大数据负责人汪涉洋 |
11:15-11:55 | 基于Apache Hudi构建数据湖上低延迟CDC的实践T3出行大数据平台负责人/资深大数据工程师杨华/刘金辉 |
12:00-12:40 | 基于滴滴开源Kafka-Manager打造专业易用的Kafka服务体系滴滴出行高级专家工程师张亮 |
02
论坛报名
识别二维码,免费报名
03
详细介绍
出品人:
邵赛赛
腾讯 | 数据湖研发负责人
出品人简介: 邵赛赛,腾讯大数据专家,数据湖研发负责人,Apache社区member,Spark及Livy项目PMC
分享嘉宾:
毛宝龙
腾讯 | 高级工程师
演讲者简介: 毛宝龙,来自腾讯数据湖团队,目前专注于开发Ozone,以及Alluxio在腾讯的落地和应用工作。是Ozone开源社区的committer 和 Alluxio 社区的 PMC 成员。
演讲议题:如何让Ozone成为HDFS的下一代分布式存储系统
演讲议题介绍:Ozone是当前Apache Hadoop生态圈的一款新的对象存储系统,OZone与HDFS有着很深的关系,在设计上,很多地方也参考了HDFS,并对HDFS存在的不足做了很多改进。很多公司看重的不是Ozone的对象存储能力,而是Ozone标榜自己是HDFS的下一代的目标。我们抓住了这一点,并做出了比社区Ozone Filesystem 方案更彻底的 HDFS on Ozone架构设计和实现,并取得了阶段性成绩。
听众收益:
· 了解Ozone是什么,与HDFS、S3的关系和区别
· 了解HDFS on Ozone方案相比HDFS 和 Ozone的优势
· 了解提升HDFS吞吐和元数据扩展性的方法
新技术/实用技术点:
· Ozone和Hadoop Distributed Data Store (HDDS) 的架构
· Hadoop compatible filesystem的HDDS实现
· 利用细粒度锁实现更高的服务吞吐能力
· 分层级管理元数据实现元数据无限扩展
· 基于RATIS的NameNode的HA实现
沈达
Tubi (比图科技) | Senior Data Engineer
演讲者简介: 沈达,毕业于中国科学技术大学计算机系,译有《Scala实用指南》,活跃于Scala社区,Apache Spark Contributor,目前是比图科技的Senior Data Engineer。曾基于Spark Catalyst实现过适用于金融风控场景的高性能SQL引擎。
演讲议题:Data Quality Architecture in Tubi
演讲议题介绍:介绍比图科技数据团队如何保障数据质量:及时发现潜在的数据质量问题,并针对处理。介绍比图科技数据质量系统的架构:如何构建简洁、低成本、易于维护的数据质量工作流
听众收益:了解数据质量问题的成因、影响和多种解决方案,了解各种数据质量解决方案(Deequ/Apache Griffin等)的优劣,如何设计一套合理的数据质量问题“发现-处理”的工作流程。
新技术/实用技术点:通过扩展Spark SQL实现使用SQL同时在批处理和流式处理中收集Metrics
汪涉洋
车好多 | 大数据负责人
演讲者简介: 汪涉洋,车好多集团(瓜子二手车母公司)大数据团队负责人,负责消息队列、大数据存储、流批计算引擎、OLAP引擎等技术在瓜子的落地。曾就职于hulu、redhat等公司,知乎专栏《大数据sre的思考》作者,在数据基础架构领域有多年从业经验。
演讲议题:结构化大数据链路在车好多的实践
演讲议题介绍:本次演讲主要介绍车好多集团围绕kafka生态搭建的大数据链路技术发展历程。从基于sqoop、flume等第一代数据链路,到第二代基于avro kafka connect体系的第二代链路,到当下基于数据湖hudi技术在开发的第三代数据链路,会着重讲解过程中遇到的挑战,以及每一代架构的特点及局限,最后展望本领域技术的未来。
听众收益: 大数据ingest技术最佳实践,以及发展历史。
新技术/实用技术点:kafka 、 数据湖hudi 、avro schema注册中心
杨华
T3出行 | 大数据平台负责人
杨华:T3 出行大数据平台负责人。Apache Hudi committer & PMC member。Apache Kylin committer 及 Flink Cube 引擎作者。Apache Flink 国内早期布道者及活跃贡献者。前腾讯高级工程师,曾主导 Flink 框架在腾讯从落地到支撑日均近 20 万亿消息的处理规模。
刘金辉
T3出行 | 资深大数据工程师
刘金辉:T3 资深大数据工程师
演讲议题:基于Apache Hudi构建数据湖上低延迟CDC的实践
演讲议题介绍:T3 出行是国内首家基于车联网的网约车平台,汇聚了人、车、路、云多样化的海量数据。由于出行行业长尾的支付窗口属性,我们发现传统的Hadoop数仓已经不适合我们的体系。而Apache Hudi作为一个新兴的数据湖框架正变得越来越流行,Hudi为数据湖带来了很多优秀的特性,例如记录级的Upsert/Delete、ACID事务语义、数据与存储的版本管理、增量处理、多种数据视图等等,都是相比传统数仓的巨大突破。这些特性帮助T3解决了很多问题,其中一个很大特性就是支持关系型数据库以低延迟的CDC机制往数据湖同步数据。
听众收益:
1. Apache Hudi 介绍
2. Hudi 解决了Hive数仓哪些问题
3. Hudi 在 T3 出行低延迟数据同步管道的落地实践
4. T3出行对Hudi的改进与扩展
张亮
滴滴出行 | 高级专家工程师
演讲者简介: 张亮2014年加入滴滴,主持构建过任务调度系统、监控系统、日志服务、实时计算、同步中心等平台设计与研发工作,目前在负责LogAgent、Kafka 、ElasticSearch、OLAP的引擎建设工作,具有丰富的高并发、高吞吐场景的架构设计与研发经验。
演讲议题:基于滴滴开源Kafka-Manager打造专业易用的Kafka服务体系
演讲议题介绍:滴滴开源Kafka-Manager脱胎于滴滴内部4年多的Kafka服务运营经验,服务了公司内数千Kafka用户,托管了数十Kafka集群,数万Kafka Topic,单集群>300 Broker,峰值CPU利用率>40%,面向Kafka用户、Kafka运维人员,提供了一套较完善的kafka指标体系及运维管控的能力,打造一套共享多租户kafka云平台,内部满意度达到90分!
听众收益:基于滴滴开源Kafka-Manager搭建企业级的Kafka服务运营平台
新技术/实用技术点:滴滴开源Kafka-Manager的架构与产品设计思考
04
论坛报名
识别二维码,免费报名
▽点击阅读原文,直达报名页!