关注DTCC有几年了,还是在当中学到了很多的干货。今年我的大部分时间也都是投入在了数据治理的学习和数据治理工具的调研中。也非常渴望有这种机会去了解一下国内顶尖公司这方面的前沿技术与应用。
DTCC是什么?
DTCC数据库大会是国内顶尖的数据领域技术峰会,每年都会举办。所探讨的技术方向往往是未来几年的技术发展方向。而现在DTCC绝不只是单纯的数据库技术,其涵盖了大数据、数据治理、实时计算、数据湖、HTAP、实时数仓等诸多技术方向,这也是我一直持续关注的原因。
今年的DTCC数据库大会将于2022年8月18日~20日举办,由IT168联合旗下ITPUB、ChinaUnix两大技术社区主办。今年是第13届中国数据库技术大会(DTCC2022),将在北京国际会议中心隆重召开。大会以“数据智能 价值创新”为主题,紧跟时代步伐,引领前沿技术,设置2大主会场,20 技术专场,将邀请超百位行业专家,重点围绕时序数据库、图数据技术、实时数仓技术与应用实践、云原生数据库、大数据平台与数据安全等内容展开分享和探讨,为广大数据领域从业人士提供一场年度的饕餮盛宴。作为顶级的数据领域技术盛会,DTCC2022将继续秉承一贯的干货分享和最佳实践砥砺前行。
本届DTCC大会在技术主题方面,从数据库的底层内核代码开发,到数据库的架构设计,再到数据库技术的云平台实践,再到上层的AI与大数据应用,在大会的主题设置中,实现了比较全面的覆盖。
下面是我比较感兴趣的几个方向推荐给大家重点关注,并附上该演讲的具体日期。
1、数据治理
数据治理是我最感兴趣的专场,数据治理工作如何开展,数据治理工具如何选择。大数据的数据治理工作如何开展?
对存储系统来说,随着时间地推移,积累的数据越来越多,数据存储成本渐渐变得难以忽视。但当我们想要着手治理时,却发现困难重重。首先公司内的业务变动与组织架构调整是常态,保存的数据却往往无法在调整后得到妥善处理,造成存储系统内遗留大量垃圾数据甚至无主数据。其次业务开发注意力集中在业务发展上,缺乏数据成本概念,很少主动推动数据治理。最后作为存储平台方,对接全集团的存储需求,对业务数据的理解仅停留在二进制层面,造成数据治理难以推动。
这些大厂都有着丰富的经验,8月20日下午,字节跳动,安徽讯飞医疗股份有限公司和小米都会分享各自的经验,值得关注。
2、湖仓一体
数据湖的概念由来已久,但是数据仓库和数据湖各自有其适用场景。
随着大数据实时划进程得不断推进,实时与离线在开发链路与数据存储上割裂的问题逐渐暴露出来,这不仅造成了实时与离线在开发人员与存储成本上的双倍投入,还造成了实时与离线指标不统一的问题。业界新的湖仓一体架构旨在统一实时与离线的数据存储,并进一步解决实时与离线割裂的问题。
8月20日 上午和8月20日 下午,阿里、美团、哔哩哔哩、网易等等公司技术专家将介绍各自的湖仓一体华实践经验。
3、HTAP
在 HTAP 数据库领域,常见的一种架构设是使用独立的行存副本和列存副本来分别处理 TP 和 AP 的业务。而这个架构带来两个挑战:1. 让列存副本支持带事务的高频更新,以实时同步 TP 业务的更新。
HTAP 能不能带来一次新的变革,现在还真的难说。
8月20日 上午可以看一下大数据平台架构方面的技术分享。
4、大数据平台与应用
大数据平台搭建了这么多年,到底有没有靠谱的解决方案。这里特别推荐一下WeDataSphere一站式开源大数据平台的建设与应用实践,这个微众银行提供的技术方案我也关注了很久。
8月20日 下午重点关注。
还有网易云分享的实时数仓建设历程:
业务的高速扩张,数据流量巨大, 超大流量的消息队列对整体带宽资源、下游的消费任务的稳定性以及计算资源都带来了巨大的挑战, 为了解决这一问题网易云音乐升级了Flink原生的实时流表的方案扩展实现了流表的分区支持, 大大降低了整体的流量带宽和计算资源的消耗; 底层技术的升级带来了大量的任务的升级改造、业务发展太快平台需要下线的废弃数据任务也会越来越多、平台开发水平层次大量的数据任务配置都需要优化升级; 等等这些都是业务平台开发日常面临的繁琐、难以推进的且很难说明价值的工作, 为了更好的触达用户, 系统化解决日常的数据任务治理工作,网易云音乐设计一套系统化、流程化、 可审计跟踪的的大数据任务治理方案来解决日常任务治理工作;
5、人工智能与大数据融合
人工智能与大数据融合是一个经久不息的话题。小红书在这个方面就有丰富的经验。
随着业务的极速扩张,小红书在模型推理和模型训练上的投入越来越大。如何借助一系列云原生技术,将现有机器学习平台演进为一个面向资源和效率平衡的平台,成为一个新的课题。本次分享主要讲述容器团队和算法工程团队合作开发的面向资效平衡的机器学习平台的演进之路。
除此以外,还有58同城、网易云音乐等公司的技术分享。
当然、本次会议的内容远不止于此,NoSQL数据库技术实践,智能运维,时序数据库 ,数据安全
SQL审计与SQL优化,图数据技术与应用创新,云原生数据库开发与实践,金融行业数据库技术实践,数据库内核技术。
StarRocks ,PolarDB,Nebula Graph v3.1.0 ,TiDB ,Presto,Apache Doris,Iceberg,Apache Pegasus等等新技术与创新都有涉足。
大会整体议程如下: