2022年6月11日,DataFun将举办第二届线上DataFunSummit2022:多维分析架构峰会。本次峰会共设置9大主题论坛,并邀请目前工作在大数据多维分析领域的负责人、架构师、数据工程师和开源多维分析项目的核心成员分享,内容既涵盖了开源多维分析、新一代MPP数据库架构、数据湖分析型架构、实时多维分析等核心技术,也包含金融、互联网、交通、物流、工业、画像、营销等多个应用场景的实践经验。非常期待这次峰会的到来,同时也希望各位能从中收获更多的知识,结识更多的朋友,让大数据的多维分析能力达到新的高度!
▌多维分析架构峰会报名,现已全面启动,全程直播
第二届多维分析架构峰会现已全面开放免费报名,大数据领域不容错过的业内分享,6月11日与你一同见证!
主席团介绍:
峰会主席:陈奕安 腾讯 TEG 数据中心 计算平台组负责人
个人介绍:目前在腾讯 TEG 数据中心担任计算平台组负责人和专家,为集团各大业务线提供新一代的大数据智能计算和云原生的存储服务。毕业于美国乔治华盛顿大学计算机系。过去在 AWS 的 Usage Procesing 担任 Tech Lead,负责构建 AWS 超大规模的底层实时数据流平台。在蚂蚁集团的智能计算部的实时计算平台担任高级技术专家。
峰会主席:孙立喆 百信银行 大数据总监&首席大数据架构师
个人介绍:毕业于皇家墨尔本理工大学,多年大数据从业经验。现任职于中信百信银行负责 数据中台,数据应用,智能风控反欺诈等领域工作。
峰会主席:严海林 百度 主任架构师
个人介绍:2005年从北京理工大学毕业,长期在百度等互联网公司从事大数据相关的工作,主要工作方向包括数据采集、流式计算、数据存储、数据分析等,现任百度主任架构师,负责MEG数据的实时化等工作。
荣誉主席:包勇军 京东 副总裁
个人介绍:包勇军先生,毕业于北京大学,2014 年加入京东,现任京东副总裁、京东零售技委会常委、京东零售数据算法通道会长、京东零售技术与数据中心数据与智能部负责人。曾担任京东零售广告算法、推荐研发负责人,为京东数字化进程奠定基础。带领团队自研出超大规模机器学习训练框架、联邦学习框架、算法模型框架,创新性提出系列AI算,实现京东大数据、广告、推荐等核心业务的高质量增长。包勇军先生在数据系统和算法等领域深耕多年,加入京东前,曾先后就职于百度、字节跳动任资深技术专家,具备前沿视野,精通数据算法和平台技术在电商业务数字化中的落地应用。在推动国内大数据产业技术进步和成果转化做了突出贡献,曾获“北京市科学进步奖”,迄今为止共申请发明专利30多项,在国际顶级学术期刊会议KDD,NeurIPS,CVPR,ICCV发表论文18篇,google学术论文引用超过1300次。
荣誉主席:陈鹏 腾讯 数据平台部总监
陈鹏,腾讯数据平台部总监,腾讯大数据平台研发负责人,2012年加入腾讯,曾就职于comodo、支付宝,十三年大数据领域研发经验,对搜索引擎、分布式计算以及数据分析等技术有丰富的研发经验,负责大数据基础平台、机器学习平台以及商业化产品的团队管理和系统研发工作,主导了从每月几十亿到日增3.5万亿的hermes系统演进,以及日增量数据从十亿到50万亿的大数据平台架构演进。
荣誉主席:任少斌 美团 研究员
个人介绍:数据技术领域从业15年,专注于大数据技术及其在商业中的应用。曾就职于阿里、腾讯、百度等互联网公司数据部门,目前在美团从事数据智能技术相关研发工作,先后负责外卖数据仓库团队、外卖数据平台和智能运营研发团队、数据平台数据治理团队,涵盖数据仓库、数据平台、数据分析挖掘及BI产品研发等技术方向。
▌各论坛详细日程及介绍
① 开源多维分析技术论坛
出品人:张家锋 Apache Doris PPMC成员
Apache Doris PPMC成员,目前主要在社区负责Doris的生态构建、Doris技术布道、及社区用户问题处理,并兼职干些社区运营的事情。
嘉宾:唐怀东 蔚来汽车 数据团队负责人
个人介绍:本科毕业于北京邮电大学,硕士毕业于中国科学院。曾在Yahoo北京研发中心,负责新闻推荐效果分析指标看板开发,以及在猎豹移动,负责新闻推荐算法。目前在蔚来汽车,负责大数据平台&中台建设。
演讲主题:DORIS 在蔚来汽车的应用
演讲提纲:
1. OLAP 在蔚来的 Roadmap
2. 基于 DORIS 构建实时/离线统一服务平台
3. 基于 DORIS 构建用户运营平台
听众收益:
1. DORIS 如何作为实时/离线一体指标服务解决方案?
2. 如何基于 DORIS 做用户运营平台?
3. OLAP 如何选型?
嘉宾:温正湖 网易数帆 数据库技术专家
个人介绍:2010年浙大硕士毕业,10 年数据库和存储开发经验。2013年入职网易数据库团队,一直从事关系型数据库和分析型数仓相关工作,专注于数据库领域技术创新、研发和应用。
演讲主题:基于历史查询的 Impala 集群性能优化实践
演讲提纲:
1. impala的查询profile讲解
2. 基于有数BI的impala集群报表建设
3. 基于历史查询的集群优化方案及应用
听众收益:
1. 微观:了解如何分析一个impala的查询性能瓶颈和错误原因;
2. 宏观:通过profile解析和统计,了解impala集群的健康状态和优化方向;
3. 优化措施:介绍网易有数基于历史查询所进行的集群优化方案;
4. 特性剖析:重点分析impala多表物化视图等特性实现及应用效果。
嘉宾:李劲松 阿里巴巴 技术专家
个人介绍:目前就职于阿里云开源大数据,长期从事分布式流 / 批处理系统领域的工作,也对数据湖和 OLAP MPP 有一些研究。我是 Apache Beam / Flink / Iceberg 的 Committer,对底层调度、通信机制、用户模型、SQL 流批计算、存储有一定了解。目前专注于 Flink Table Store 项目的开发,希望给 Flink 带来一个最适合的存储。
演讲主题:Flink Table Store v0.2 应用场景和核心功能
演讲提纲:Flink Table Store 是一个流批统一的存储,用于在 Flink 中为流批处理建立动态表,支持实时流消费和实时 OLAP 查询。Flink Table Store 已经发布了第一个前瞻版本,但是缺少了生态和稳定性的不少工作。目前我们已经开始研发第二个版本,我们希望第二个版本能够带来更多的生产能力,通过此次分享你可以了解到我们通过加强哪些方面来提高存储的可靠性和生态。另外,我也会分享后续的架构,以及如何达成统一的流仓的存储。
1. Table Store 的需求和架构
2. Table Store 2.0 核心能力
3. Table Store 2.0 解锁的场景
4. 项目信息
听众收益:
1. 给实时数仓带来历史存储的能力
2. 实时存储加速离线数仓
3. 以低成本支持大规模实时更新
嘉宾:杜军令 字节跳动 研发工程师
个人介绍:十年大数据经验,多年Spark, Presto开发工作,目前负责Apache Doris优化。
演讲主题:字节跳动基于 Doris 的数据湖仓探索
演讲提纲:
1. 基于 Doris 的数据湖仓探索背景
2. Doris 与 Hudi 数据打通的设计原理
3. Doris 与 Hudi 数据打通的技术实现
听众收益:本次分享可以帮助大家全面了解在字节跳动内部 Doris 与数据湖仓结合下的应用场景,同时可以了解字节基于 Doris 与 Hudi 联合分析所带来的业务实际收益。
嘉宾:王星 同程数科 大数据高级工程师
个人介绍:曾就职平安集团、复星集团。在平安集团期间获得“平安知鸟讲师”称号。在复星集团期间负责大数据架构相关工作。现就职同程数科,担任大数据高级工程师一职。负责同程数科整体大数据平台技术选型、技术架构以及大数据平台建设工作。
演讲主题:Apache Doris 在同程数科数仓建设中的实践
演讲提纲:
1. 业务场景
2. 架构演变
3. 收益现状
4. 未来展望
听众收益:
1. 如何进行大数据架构设计和迭代
2. 如何运用Doris解决数仓问题
3. 如何进行开源组件上层应用
② 新一代 MPP 数据库架构论坛
出品人/嘉宾:龙跃 腾讯 技术专家
个人介绍:北京大学计算机本硕,多年OLAP从业经验,聚焦于以Spark, Presto等为代表的OLAP引擎。曾任字节跳动Presto负责人,现为腾讯TEG数据中心OLAP方向技术专家。
演讲主题:腾讯新一代多维分析引擎 HermesDB
演讲提纲:
1. HermesDB 背景
2. HermesDB 架构:与 Presto 的高效融合
3. HermesDB 存储:多种索引支持多场景高效 IO
4. HermesDB 计算:基于 Vector API 的向量化计算
- HermesDB 应用与效果
听众收益:
1. 了解腾讯自研引擎 HermesDB 的优势和应用场景
2. 了解索引在多种查询中提供了的性能优势
3. 了解 Vector API 在向量化计算中的应用
嘉宾:常冰琳 StarRocks 数据库研发工程师
个人介绍:StarRocks工程师,实时更新存储引擎负责人。13年大数据、云服务、计算机视觉领域经验,曾在百度、VMWare、小米负责Hadoop、查询引擎、OLAP云服务、相机AI特效等相关项目。Apache Kudu Commiter和PMC,多次在国内外技术大会分享Kudu、OLAP、云服务等实践经验。O'Reilly图书《Getting Started With Kudu》译者。
演讲主题:StarRocks 中的实时更新
演讲提纲:
1. OLAP 中的实时更新需求
2. 常见的技术方案总结
3. StarRocks 实时更新详解
4. 最新技术趋势展望
听众收益:
1. 实时数据分析的常见业务场景
2. 实时更新与查询性能如何兼得
嘉宾:吴雪扬 阿里巴巴 高级开发工程师
个人介绍:目前在阿里云开源大数据平台从事OLAP相关的研发工作。
演讲主题:基于 EMR OLAP 的开源实时数仓解决方案之 ClickHouse 事务实现
演讲提纲:
1. 背景
2. 现有机制
3. 技术方案
4. 性能与未来规划
听众收益:
1. 如何实现ClickHouse的原子写入
2. 如何通过 ClickHouse Jdbc 实现sharding key写入
嘉宾:杨洋 bilibili 大数据开发工程师
个人介绍:2021年加入B站工作至今,主要负责 Presto 与 Alluxio 相关的研发工作。包括内核研发、线上问题诊断、集群稳定性保障、社区新特性引入及内部特性贡献社区。大数据开源社区爱好者。
演讲主题:B站基于缓存优化 Presto 集群查询性能
演讲提纲:
1. B站离线部门架构
2. Presto 缓存介绍
3. Presto Alluxio Cluster
4. Presto Alluxio Local Cache
听众收益:
- 了解 Presto 在B站的应用情况
2. 知晓 Presto 元数据与数据源方面的缓存
- 认识 Presto 与 Alluxio 的整合方式
嘉宾:冯吕 ClickHouse 社区 Active Contributor
个人介绍:中科院计算所硕士研究生(预计7月毕业),方向为大数据计算系统。ClickHouse社区活跃贡献者,累计向社区提交100余个已合并PR。目前同时在腾讯微信技术架构部实习(毕业后正式入职),主要参与微信事业群OLAP引擎建设相关工作。
演讲主题:ClickHouse 向量化执行与 Pipeline 设计
演讲提纲:自开源以来,ClickHouse 凭借卓越的性能受到了业内的广泛关注。高效的向量化执行引擎是 ClickHouse 极致性能的核心因素,其也受到了业内许多同类产品的借鉴和参考,如 Apache Doris、tiflash 等。本次分享会介绍 ClickHouse 背后的向量化执行技术,详细介绍其向量化执行的关键:基于 Pipeline 的执行器设计与实现。
听众收益:通过本次分享,听众能够熟悉 OLAP 系统中常见的向量化执行技术,了解到向量化执行在 ClickHouse 内的具体实现。
③ 数据湖型多维分析论坛
出品人:范振 阿里云 高级技术专家
个人介绍:范振(花名辰繁),阿里云高级技术专家,本硕毕业于哈尔滨工业大学,是计算平台-开源大数据-OLAP方向负责人。在大数据,数据仓库领域有近十年的从业经历,目前主要聚焦于数据仓库、数据湖方向的技术与产品研发。
嘉宾:耿筱喻 字节跳动 大数据研发工程师
个人介绍:硕士毕业于南京大学 PASA LAB 大数据实验室,就职于字节跳动数据引擎团队,目前专注于数据湖场景落地。
演讲主题:字节跳动数据湖索引演进
演讲提纲:
1. Hudi 社区的索引方式介绍
2. Hudi 在大数据量场景下落地的问题与挑战
3. Non Index 的使用场景与原理介绍
4. Bucket Index 的写入与查询优化原理介绍
5. Extensible Hash Index 的写入与查询优化原理介绍
6. 未来规划
听众收益:
1. HUDI 社区支持索引类型介绍
2. 大数据量场景下,如何支持数据的快速入湖
3. 如何针对特定索引进行读优化
嘉宾:李培殿 小米 软件研发工程师
个人介绍:参与公司流式计算平台、 Flink 计算引擎研发工作。目前负责基于 Iceberg 的数据湖方案研发和落地相关工作。
演讲主题:数据湖 Iceberg 在小米的落地及实践
演讲提纲:
1. 数据湖 Iceberg 技术简介
2. 数据湖 Iceberg 在小米的实践
3. 数据湖 Iceberg Flink 流批一体的探索
4. 未来规划
听众收益:
1. 数据湖 Iceberg 在小米的落地过程
2. Iceberg 在实际应用中解决哪些问题
3. Iceberg Flink 流批一体的一些实践
嘉宾:范佚伦 阿里巴巴 技术专家
个人介绍:负责阿里云EMR Spark on ACK产品功能研发。
演讲主题:Spark on K8s 在阿里云上的实践
演讲提纲:
1. Spark on K8s 介绍
- K8s 部署的优势
- 部署架构
- 重点特性
- 社区进展
2. Spark on K8s 在阿里云 EMR 的优化实践
- 使用 RSS 优化 shuffle 和动态资源
- 充分利用云上弹性&调度优势
- 云上数据湖存储加速
- 易用性提升
听众收益:
1. 如何在 K8s 上部署 Spark
2. 如何节省 Spark 作业运行成本
3. 如何优化 Spark on K8s 作业
嘉宾:石磊 阿里巴巴 技术专家
个人介绍:阿里巴巴技术专家,主要负责阿里云 EMR 产品研发工作。
演讲主题:阿里云 EMR StarRocks 极速数据湖分析揭秘
演讲提纲:数据湖概念日益火热,已成为大数据领域的新趋势。为满足更快的数据分析需求,同时让 StarRocks 极速分析能力在更广泛的数据集上得以应用,阿里云开源大数据 OLAP 团队联合社区增强了 StarRocks 的数据湖分析能力。本次演讲主要为大家介绍 StarRocks 极速数据湖分析背后的技术内幕及其带来的业务价值。
听众收益:
1.了解 StarRocks 极速数据湖分析的技术内幕
2. StarRocks 数据湖最佳实践
3. StarRocks 数据湖能力未来的迭代方向
嘉宾:马洪宾 Kyligence 技术合伙人、首席布道师
个人介绍:马洪宾是大数据创业公司 Kyligence 的初创成员、技术合伙人,Apache Kylin 项目管理委员会成员(PMC)。在 Kyligence 先后担任架构师、研发总监、研发副总裁、首席研究员、首席布道师等职务。在技术方向上,他专注于面向企业级的、云原生的数据架构、生态、产品。他多次在 Strata、HBaseCon 等国内外的行业大会上作主题演讲,代表公司分享他的研究进展和行业理解。在 Kyligence 之前,马洪宾先后供职于微软亚洲研究院、eBay中国研发中心,是《Apache Kylin权威指南》的共同作者。
演讲主题:Kyligence Cloud 云上数据湖分析的竞争优势分析
演讲提纲:
1. 业务领域、技术挑战和业界趋势
2. Kyligence Cloud试图打造的竞争格局
3. 技术角度的能力对齐
4. 总结和展望
听众收益:
1. 云上数据湖架构选型需有哪些注意点?
2. 云上数据湖的行业发展趋势是什么?
3. Kyligence Cloud 的架构有哪些亮点?
4. 从技术角度,支撑云上数据湖架构有哪些工作?
④ 实时多维分析论坛
出品人:严海林 百度 主任架构师
个人介绍:2005年从北京理工大学毕业,长期在百度等互联网公司从事大数据相关的工作,主要工作方向包括数据采集、流式计算、数据存储、数据分析等,现任百度主任架构师,负责 MEG 数据的实时化等工作。
嘉宾:郑德来 百度 资深研发工程师
个人介绍:郑德来,毕业于吉林大学,目前主要负责百度信息流、百家号、电商业务的数据建设工作。
演讲主题:流批一体的实时多维分析
演讲提纲:
1. 大数据架构演进
2. 流批一体方案
3. 关键问题突破
4. 后续规划
听众收益:
1. 大数据架构如何选型?
2. 流批一体怎么做?
3. 复杂关联场景的实时宽表怎么建?
嘉宾:刘一鸣 阿里云智能 高级产品专家
个人介绍:刘一鸣,花名合一,阿里云高级产品专家,主要负责实时数仓产品Hologres的能力演进和商业化。在大数据、数据仓库、开源软件行业有10年以上工作经验,是开源大数据OLAP引擎Apache Kylin的PMC & Committer。
演讲主题:Hologres:阿里建设高吞吐、多负载的实时数仓平台
演讲提纲:介绍阿里巴巴实时数仓 Hologres 在支持营销、风控等业务关键场景下的最佳实践,解析如何支持高吞吐数据写入与更新,支持亚秒级交互式分析,支持多种混合负载隔离,支持在线高可用等方面的技术创新点。
嘉宾:王天宜 StarRocks 解决方案架构师
个人介绍:StarRocks 解决方案架构师。曾就职于 Fidelity Investment、Softbank Investment,拥有丰富的数据库高可用方案设计经验,对 Oracle、PostgreSQL、MySQL、ClickHouse、Druid 等数据库的高可用架构与数据库生态有深入研究。
演讲主题:StarRocks 构建实时数仓的新探索
演讲提纲:
1. 实时数仓历史演进
2. 基于 StarRocks 构建实时数仓新探索
3. 用户案例(小红书、顺丰)
听众收益:
1. 深入了解实时数仓发展历程
2. 前沿的构建实时数仓的方法论
嘉宾:冯国敬 腾讯 后台开发工程师
个人介绍:2013年毕业于哈尔滨工业大学,一直从事大数据领域研发工作,目前在腾讯灯塔负责融合分析引擎的研发。
演讲主题:腾讯灯塔融合分析引擎设计与实践
演讲提纲:
1. 腾讯灯塔介绍
2. 挑战与融合分析引擎的解法
3. 实践总结
4. 未来的规划和演进方向
听众收益:
1. 了解腾讯灯塔融合分析引擎的设计理念
2. 内核引擎中 Impala、Presto、ClickHouse 等最佳实践
3. 业界云数仓解决方案的动态和趋势
嘉宾:马皓 百度 数据架构师
个人介绍:百度移动生态数据中心技术负责人,负责百度主要移动产品的数仓建模、BI 平台建设等工作。
演讲主题:基于宽表建模的自助查询系统
演讲提纲:
1. 传统数仓建模及查询系统
2. 百度移动产品基于宽表建模的探索
3. 自助查询系统实践
4. 未来展望
听众收益:
1. 如何解决传统数仓存储冗余、口径不清等问题
2. 宽表查询性能优化
3. 面向业务的自助查询系统实现
⑤ 金融与交通物流多维分析论坛
出品人:孙立喆 百信银行 大数据总监&首席大数据架构师
个人介绍:毕业于皇家墨尔本理工大学,多年大数据从业经验。现任职于中信百信银行负责 数据中台,数据应用,智能风控反欺诈等领域工作。
出品人/嘉宾:姚延栋 四维纵横 CEO
个人介绍:北京四维纵横数据有限公司创始人&CEO。原Greenplum 北京研发中心总经理,Greenplum中国开源社区创始人,PostgreSQL中文社区常委,壹零贰肆数字基金会(非营利组织)联合发起人,清华大学产教融合课程《分布式数据系统基础及应用》产业方负责人、讲师,新能源汽车国家大数据联盟理事。
演讲主题:超融合数据库 MatrixDB 实现数字汽车和智能工厂实践
演讲介绍:物联网、车联网、工业互联网、智能制造、智慧能源等领域新一代数据基础设施面临诸多挑战,业内仍在使用十几年前为互联网简单 CRUD 应用而生的技术栈,碎片化严重、端到端性能低、开发运维复杂低效、人才匮乏。本演讲将介绍面向万物互联时代而设计的高性能超融合数据库 MatrixDB,并介绍其在数据量庞大的数字汽车领域和数据量相对较小的模智能工厂领域的实践和方案。
演讲提纲:
1. 时序数据库选型;
2. 超融合数据库 MatrixDB 介绍;
3. 数字汽车解决方案;
4. 智能工厂解决方案
听众收益:
1. 如何通过超融合数据库 MatrixDB,理想汽车实现海量车机信号实时采集、存储、查询和分析。成本节省80%,高峰数据入库延迟提升500倍。
2. 如何通过超融合数据库 MatrixDB,一个数据库搞定智能工厂/工厂大脑工业大数据平台,一个数据库搞定 ERP、MES 关系数据和设备时序数据,实现实时分析,让客户省心省力省时省钱。
3. 如何为泛物联网场景选型数据库,时序数据库需要具备哪些基本能力,既能满足当下的需求,又具有一定前瞻性,满足未来发展需求,避免 “试点炼狱”。
嘉宾:李权 上海科技大学 助理教授、研究员、博导
个人介绍:李权,上海科技大学信息科学与技术学院助理教授(终身教授序列)、研究员、博士生导师。他于2019年博士毕业于香港科技大学计算机科学与工程学系。他曾任职于微众银行人工智能部高级研究员,从事人工智能及可视分析、可解释性机器学习以及人机交互技术的研究,并开展相关技术在金融风控、智慧零售、智慧城市、社交网络、在线游戏等领域的广泛应用与落地。读博期间,曾获得港科大工学院PhD Fellowship及 Top RPG (Research Post-Graduate) 荣誉。任中国图象图形学学会可视化与可视分析专委会委员,IEEE VIS Paper程序委员会委员、ChinaVis论文国际程序委员会委员、IEEE VIS, EuroVis, PacificVis, ChinaVis, ACM CHI/CSCW及TVCG等顶级学术会议期刊审稿人。他曾任美国佐治亚理工学院计算机科学与工程学院的访问研究员及网易游戏资深研究员。他的学术成果发表在IEEE VIS, EuroVis, IEEE PacificVis, ACM CHI, CGF, TVCG等可视化及人机交互顶级期刊和会议。更多信息见:
https://faculty.sist.shanghaitech.edu.cn/liquan/
演讲主题:金融与物流场景中以用户为中心的可视分析设计和交互
演讲提纲:在金融及电商物流场景中设计可视化及可视分析技术来解决各自领域内决策支持等需求不是一件容易的事。本次报告将总结现有的可视化及人机交互领域典型的应用案例来展示以用户为中心的设计过程如何在金融及电商物流场景中得到很好的应用。特别的,我们将分享如何将用户特征、任务性质和上下文因素纳入设计考虑,如何将用户保持在(半)自动设计(semi-automatic design)的循环中,以及如何从经验性的用户评估中获得实际意义。
听众收益:
1. 如何与不同领域专家协同合作梳理需求与分析任务?
2. 为什么使用纯自动的方法无法解决这些应用领域中的某些决策问题和分析需求?
3. 如何让人工智能更好地在金融及电商物流场景中实际落地而非画大饼?
嘉宾:吴晓兵/唐晔 翼支付 大数据开发工程师
个人介绍:
唐晔,9年数据库开发及 DBA 工作经验,5年大数据相关工作经验,热衷于数据库相关技术,目前专注 OLAP 引擎底层技术研究。
吴晓兵,2016年毕业于重庆邮电大学,硕士研究生学历,之前在中兴移动从事大数据平台研发工作,2019年加入翼支付,已在大数据领域深耕6年,目前专注 OLAP 引擎底层技术研究。
演讲主题:翼支付大数据 BI 分析平台建设实践
演讲提纲:
1. 翼支付在金融大数据分析的应用
2. 翼支付大数据 BI 分析平台架构
3. OLAP 引擎技术选型及落地过程的问题
听众收益:
1. 如何进行 OLAP 的技术选型
2. 了解多种 OLAP 引擎在金融科技企业是如何赋能业务的
3. 基于 OLAP 引擎我们有哪些可以落地的技术方案
嘉宾:王明军 百信银行 架构师
个人介绍:专注于数据仓库,BI等数据应用领域开发,目前在百信银行负责用户画像相关的体系建设。
演讲主题:用户行为及标签在百信银行的应用
演讲提纲:
1. 百信银行介绍;
2. 用户行为及标签解决方案
3. 用户行为及标签在百信应用
听众收益:结合百信银行实践,对用户行为分析和标签在业务中的使用进一步了解
嘉宾:杨秋吉/张斌 货拉拉 大数据引擎负责人/大数据工程师
演讲主题:货拉拉基于 Doris 的 OLAP 体系演进及建设方法
演讲提纲:
1. 背景介绍
- 货拉拉介绍
- 货拉拉大数据介绍
- 货拉拉OLAP发展简介
2. OLAP在货拉拉的实践
- v0.1: OLAP初探:Druid实践
- v0.5: OLAP能力加强:Clickhouse实践
- v1.0: OLAP能力完善:Doris实践
3. 总结&规划
- 总结与思考
- 后续规划
听众收益:
1. 了解各OLAP引擎的适用场景、掌握如何根据业务特点选型
2. 了解选定OLAP引擎后,如何将其应用到生产
嘉宾:王贤才 资深大数据工程师
个人介绍:主要负责房地产行业产业大数据建设。
演讲主题:探索构建商业地产多维度分析
演讲提纲:
1. 精细化运营
2. 多业态运营
3. 差异化运营
4. 数据运营整体框架
听众收益:在房地产存量时代的条件下,去做到独特性的产品、服务、品牌形象,提高房企的边际收益。
⑥ 数据湖分析型场景实践
出品人:郭俊 字节跳动 数据引擎部门负责人
郭俊,就职于字节跳动(上海),现负责数据引擎团队。团队负责以 SparkSQL、Presto 为代表的大数据引擎优化,以及基于 HUDI 的批流一体实时数据湖平台研发。同时负责火山引擎上的湖仓一体数据分析服务 LAS(LakeHouse Analytics Service)。
嘉宾:郑平贺 T3出行 数据基础设施负责人
个人介绍:10多年大数据工作经验,分别从事过舆情,智慧城市,出行等相关领域的大数据开发以及架构工作,目前主要负责T3出行数据基础设施相关工作,包含:大数据开发,计算,分析,查询以及数据平台等服务支持。
演讲主题:T3出行湖仓一体架构下的统一指标平台
演讲提纲:
1. 为什么需要统一指标;
2. 湖仓一体下的统一指标平台架构;
3. 统一指标平台的实现;
4. 未来展望。
听众收益:
1. 指标统一的价值是什么?
2. 如何解决指标统一?
3. 如何高效的响应指标结果?
4. 如何兼容离线与实时指标?
嘉宾:张友军 字节跳动 大数据引擎研发工程师
个人介绍:就职于字节跳动数据引擎部门数据湖团队,任数据湖高级工程师。先后从事 Spark 引擎研发,智能数仓研发,现负责基于 HUDI 的实时数据湖内核研发及在字节跳动的场景落地。
演讲主题:字节数据湖平台在实时数仓中的实践
演讲提纲:
1. 实时数仓场景介绍
2. 数据湖如何切入实时数仓
3. 数据湖在实时数仓典型场景
4. 实时数仓发展趋势 - 批流一体
听众收益:
1. 数据湖如何更好的在实际业务场景落地?
2. 数据湖在实时数仓场景能解决哪些实际问题?
嘉宾:张永翔 网易数帆 资深平台开发工程师
个人介绍:张永翔,网易数帆资深平台开发工程师。从事大数据与数据库方向开发工作经验5年,目前负责 Arctic 流批一体数据湖方面研发,在构建数据基础设施方面有充分经验。
演讲主题:网易 Arctic:基于 Apache Iceberg 构建的实时湖仓一体系统
演讲提纲:
1. 网易数据开发现状与痛点
2. 基于 Iceberg 的湖仓一体系统——Arctic
3. Arctic 的核心技术
4. 案例与成果
5. 未来规划
听众收益:
1. 如何解决实时和离线在开发链路和数据存储上的割裂问题
2. 实时湖仓一体的加载链路是如何实现的
3. 湖仓一体系统的业务价值是什么
嘉宾:马汶园 字节跳动 大数据架构师
个人介绍:硕士毕业于北京邮电大学,曾任阿里巴巴菜鸟网络高级数据工程师,负责数据中台建设及大促实时数据研发/保障。目前任职字节跳动数据平台电商大数据架构师,实时数仓核心成员。
演讲主题:基于数据湖技术的近实时场景实践
演讲提纲:
1. 数据湖技术特性
2. 近实时场景应用
3. 电商数仓实践
4. 未来规划与挑战
听众收益:从实际电商数据场景中生产应用的角度,如何利用数据湖的技术特性解决近实时场景中的各类型问题及其数据解决方案。
嘉宾:刘献杨 腾讯 高级软件工程师
个人介绍:刘献杨,目前供职于腾讯实时湖仓团队,主要参与基于 Iceberg 的湖仓研发和优化工作,曾就职于 Intel 大数据团队参与 Spark 优化和相关开发工作。活跃贡献于 Iceberg/Spark/Ray 等开源项目。
演讲主题:Spark 读写 Iceberg 在腾讯的实践和优化
演讲提纲:
1. Spark 读写 Iceberg 实现细节
2. 腾讯在使用Spark读写 Iceberg 时遇到的挑战和优化
3. 腾讯对 Iceberg 做的一些自动优化服务
听众收益:
1. 了解 Iceberg 存在的不足和技术挑战
2. 了解腾讯在基于 Iceberg 改造日志平台时遇到的问题和经验,如通过 Batch commit 解决了宽表写入时 driver OOM 的问题,通过 auto schema evolution 简化了写入数据和表 schema 不匹配的问题。
⑦ 场景化多维分析论坛
出品人:钱智 腾讯技术专家、腾讯云计量平台负责人
个人介绍:计算机科学硕士,就读于美国史蒂文斯理工学院。毕业后加入 AWS 工作,在5年内成为 AWS 计量平台 Tech Lead,并负责产品和研发管理工作。2022年加入腾讯,现在负责腾讯云计量平台。
嘉宾:李丛 腾讯云 高级工程师
个人介绍:有着多年计费领域研发经验, 在专业能力方面,深度参与了计费平台交易、优惠、国际化结算等多个核心系统的建设, 同时负责云产品计量平台的搭建,对海量数据的处理、流式运算的运用等有着丰富的经验。
演讲主题:多维分析在云产品计量计费场景中的应用
演讲提纲:多维分析在云产品计量计费场景中的应用,主要涉及云产品计量计费场景介绍,多维分析在云产品计量计费场景中的应用,以及相关问题解决方案和未来展望四个方面的内容。其中着重介绍了实时计量数仓系统的搭建和演化,计量系统模型抽象和问题解决,以及多维分析在实时计量场景中的特殊应用。
听众收益:
1. 云产品实时计量数仓系统的特殊之处
2. 云产品实时计量数仓系统搭建的演化之路
3. 多维分析在实时计量和计费系统中的特殊应用
4. 海量数据搭建按秒计量计费系统的挑战和相关问题解决
5. 实时计量系统模型的抽象和系统平滑升级的解决方案
嘉宾:侯容 知乎 用户理解&数据赋能研发 Leader
个人介绍:毕业于北京化工大学,18 年初入职知乎,在社区业务线完成多方向的业务流程建设和架构的搭建,21 年开始负责知乎用户理解&数据赋能方向的研发团队管理,主要涵盖用户理解和实时数据的工程和业务研发。21 年在知乎带领团队完成了实时数据系统从基建到业务层从 0 到 1 的建设及重写升级用户理解应用,形成「数据来源于业务,数据赋能于业务」的闭环,建设了相应的基建,提升了用户理解和实时数据的业务迭代效率,最终赋能业务拿到了不错的业务效果。
演讲主题:基于 Doris 的知乎 DMP 平台的架构与实践
演讲提纲:
1. DMP 简介:DMP 是什么?DMP 平台搭建的业务流程和解决的问题是什么?DMP 平台的定位是什么?
2. DMP 的业务架构和技术架构:DMP 平台通过哪些业务模块来解决业务问题?通过怎样的技术设计支持这些业务模块的运转?期间技术选型有哪些,为什么选择 Doris?
3. 技术方案与痛点突破:具体功能点设计(展开介绍,包括人群定向,人群泛化,人群对比分析方面等),其中面临的痛点、难点是什么?如何解决的?(包括业务尝试探索,以及与 Doris 团队共同推进解决的问题)
4. DMP 的应用:DMP 平台与营销、推荐、广告等不同的业务场景的结合方式是怎样的?能提供怎样的能力支持业务发展?
5. 总结、前景与展望:对于业务上进一步前进点?技术上有哪些方向在持续建设和优化?基础设施朝哪些方向迭代等?(宏观角度上的总结)
听众收益:
1. DMP 平台能解决什么业务问题?在营销、推荐、广告等不同的业务场景中 DMP 平台能提供哪些能力,以解决业务问题?
2. 如何合理的拆分模块,设计一套针对人群定向、泛化、分析等场景,既支持现有业务,又便于灵活扩展的技术架构?
3. 如何解决量级比较大(千亿)的场景下,快速完成人群预估(毫秒至秒),人群圈选(分钟),人群洞察分析等功能?
嘉宾:刘星辰 得物 架构师
个人介绍:刘星辰,得物架构师,得物交易线稳定性团队负责人。8年应用与基础架构经验,主要关注应用治理、可观测性等领域。曾负责PAAS&IAAS从零到一到实施,多次在北京、南京等地的国内技术大会进行中间件实际落地分享。
演讲主题:StarRocks 在得物的实践与落地
演讲提纲:
1. 为什么选择 StarRocks
2. 哪些场景使用了 StarRocks
3. 得物总结的最佳实践
听众收益:
1. 业务视角下的数据库优劣之分
2. DBA 运维的最佳实践经验分享
嘉宾:怀谦 网易云音乐 资深数据开发工程师
个人介绍:十年数据仓库相关工作经验,通信、环保、电商、医疗等业务领域的数据建设都有涉及。目前就职于网易云音乐,担任社交娱乐线数据负责人。
演讲主题:多维分析在云音乐社交创新业务的应用
演讲提纲:
1. 业务背景介绍
2. 多维分析场景介绍
3. 多维分析的意义
4. 多维分析的数据底座
5. 未来构想
听众收益:
1. 多维分析在云音乐创新业务场景是如何应用的?
2. 自助多维分析对数仓意味着什么?
3. 如何用更好的数仓模型设计方法去支撑多维分析应用场景?
⑧ 互联网多维分析论坛
出品人:李海波 京东零售 大数据架构师
个人介绍:从2016年开始在小米和京东负责商业智能和多维分析,推动了多个 OLAP 组件在公司落地,积极参与内核研发是 Apache Doris 和 ClickHouse 的贡献者,曾在百度等公司长期负责广告和搜索相关架构,毕业于华中科技大学计算机专业。
嘉宾:吴建超 京东 架构师
个人介绍:毕业于西南大学,专注于大数据存储计算和分析,目前主要负责京东 ClickHouse 研发和运维工作。
演讲主题:RaftKeeper:建设大规模异地多活 ClickHouse 集群
演讲提纲:
1. 项目背景
2. 架构设计
3. 主要优化
4. 异地多活 CH 集群
听众收益:
1. 分布式共识服务研发实践
2. 异地多活 ClickHouse 集群架构
嘉宾:闫铁 37手游 数据架构师
个人介绍:长期从事 BI,数据仓库,大数据领域的业务开发和平台建设。对数据中台建设有较丰富的实践经验。
演讲主题:多维数据分析平台在37手游的技术演进
演讲提纲:
1. 37手游的业务特点简介
2. 37手游多维分析技术演进
3. 多维分析平台建设过程中的经验与教训
4. 未来的思路
听众收益(讲师必填)
1. 游戏发行领域数据数据高频此 upsert,实时分析场景如何满足?
2. OLAP 选型和演进过程的经验与教训
3. OLAP 查询平台数据质量体系建设
嘉宾:刘成彬 游族 资深大数据开发
个人介绍:游族网络资深大数据开发,负责公司设备数据贯通,实时数仓建设与指标开发。
演讲主题:游族多维分析场景与落地实践
演讲提纲:
1. 多维分析场景
2. 技术选型与架构
3. 难点与解决方案
听众收益:
1. OLAP 如何选型?
2. 实时指标如何做到准确性与实时性的平衡?
3. 多维度实时指标应该如何处理?
嘉宾:翁晓萍 小米 高级产品经理
个人介绍:2016年加入小米,一直致力于数据应用的建设,目前为小米数据中台BI平台产品负责人。
演讲主题:BI 平台在小米的实践
演讲提纲:
1. 小米的 BI 平台发展演变
2. 目前的产品架构
3. BI 平台建设的探索和实践
4. 未来规划
听众收益:BI 平台产品建设踩过坑和心得体会
嘉宾:金家兴 腾讯 大数据平台部 应用开发负责人
个人介绍:超过十年的研发经验、曾就职于百度从事LBS方向toC的研发工作、目前在腾讯负责大数据相关的应用开发和架构工作。
演讲主题:DataTalk:开放的通用 BI 可视化平台
演讲提纲:
1:DataTalk 的诞生
2:架构设计
3:开放能力建设
4:腾讯内的实践和展望
听众收益:
1. 一个通用的、自由的、开放的 BI 可视化平台介绍
2. LowCode 能力和开放能力在可视化平台上的应用
3. 在腾讯内的落地和应用
嘉宾:秦梦娜 360 资深研发工程师
个人介绍:本人2018年硕士毕业于太原理工大学,毕业后,在百度凤巢从事客户报表存储引擎 OLAP 相关的工作3年,之后加入360,从事 StarRocks 在 360 的落地及研发。
演讲主题:StarRocks 在 360 的应用 (大数据和综合群 2级)
演讲提纲:
1. 为啥选型 StarRocks
2. Doris 切换 StarRocks 的步骤
3. StarRocks Iceberg 与 trino Iceberg 性能对比
4. StarRocks 在 360 应用
听众收益:
1. StarRocks 的优势
2. StarRocks 的应用场景
▌如何参与?
识别二维码,免费报名
报名成功后,请按照提示,入群收看。