VLDB 2019(Very Large Data Bases)于2019.8.26 – 2019.8.30在洛杉矶召开,腾讯TDSQL分布式数据库团队带来现场报道。
VLDB是三大国际顶尖数据库会议之一(其余二者为SIGMOD和ICDE),根据大会官方公布,今年VLDB共接收了128篇Research Paper、22篇Industry Paper和48个Demo,详细的论文解读可以参考《一文读懂数据库最新技术趋势:TDSQL带你深度纵览VLDB 2019》。
Keynote:
本届VLDB带来三个Keynote,角度分别为:尝试从不同的技术角度更优雅地解决应用问题;数据膨胀带来潜在的危险;数据在娱乐产业的重要作用,给人们带来的生活质量提升。
《分布式数据库系统原理第三版》作者、滑铁卢大学David R. Cheriton计算机科学学院大学教授M. Tamer Ozsu首先带来题为“Graph Processing: A Panaromic View and Some Open Problems”的Keynote,系统分析了图数据处理的发展和应用,重点介绍一些开放性的问题,比如现有图处理系统的性能、图处理的本地性、图处理的查询语言、图数据的可视化等。未来图数据库的研究需要关注性能调优、可扩展性,SPARQL完整实现,动态和流式RDF图处理,RDF in IoT等。
ACM Fellow、欧洲科学院院士、以色列特拉维夫大学教授Tova Milo带来的Keynote主题 为“Getting Rid of Data”,她指出指数级膨胀的数据不仅带来了存储容量问题,还对隐私和安全造成潜在的巨大威胁,而减缓数据膨胀,需要从多方入手:简化数据模型,语义上的压缩总结,数据抽样,数据sketch,借助机器学习等。Tova和她的团队构件了一套神经网络系统,能够鉴别出数据集中感兴趣的部分以减少数据的滞留,但目前还需人工辅助确定“是否感兴趣”。
Eric Iversion的分享主题是 “Awesome Data Use Cases from Hollywood: How data is changing everything about the entertainment experience”,侧重在工业领域的应用和经验,介绍了数据在整个娱乐产业生态系统中的作用,包含版权、市场调研、用户匹配、娱乐内容等方面。
Awards:
今年VLDB颁发了如下奖项:
Honorable Mention
今年的Honorable mention由Rice University的研究团队获得,论文“Declarative Recursive Computation on an RDBMS, or, Why You Should Use a Database For Distributed Machine Learning”提出一种在关系数据库之上搭建机器学习平台的方案。
Awarded Best Paper
本届VLDB的Awarded Best Paper为“Fine-Grained, Secure and Efficient Data Provenance on Blockchain Systems”。
此篇论文的背景是,区块链系统还没有一个方便的方法来追溯数据起源和变迁,只能依靠回放事务来重现过去的状态,这种方式适用于大规模的线下分析,但是不适合线上的事务处理系统。论文给出一个简单的例子:账户A给B转账,要求近期账户B的每日余额位于某一阈值以上,才可转账,现有系统需要重放近期B账户每天的交易,才能作出转账的决策。
为了解决这样的问题,论文提出LineageChain系统,能够做到细粒度、安全高效地回溯区块链数据。
本文的主要贡献是:
1. 在线交易进行时,LineageChain精细、安全地保留下数据的变迁,并且对外提供简单的接口来访问这些数据变迁。
2. 设计一种新型的索引,针对区块链数据起源和变迁的查询作出优化。
3. LineageChain基于Hyperledger实现,底层存储为ForkBase(同一团队研发的面向区块链的存储系统,发表于VLDB2018 http://www.vldb.org/pvldb/vol11/p1137-wang.pdf)
Early Carrer Research Contribution Award
这一奖项表彰在某一领域做出具有很高影响力的研究成果的学者,一般来讲,博士毕业8年内的学者才有资格获此奖项,这一奖项要求研究者深耕某一个具体领域。
今年的Early Carrer Research Contribution Award颁给了Aditya Paramenswaran。Aditya目前在伯克利大学担任助理教授,他致力于构建简单易用的数据分析工具,比如DataSpread、OrpheusDB、zenvisage等开源工具,这些工具方便了普通用户(非程序员群体)进行数据分析、数据挖掘等。
本届VLDB上,Aditya发表了名为“Helix: Holistic Optimization for Accelerating Iterative Machine Learning”的Research Paper,与现行的机器学习系统相比,Helix的训练周期更短。在某些应用场景下,其训练时间优于DeepDive、KeystoneML这些一流系统的19倍。
Women in Database Research Award
VLDB组委会设立此奖项,以示对数据库领域性别多样化、对杰出女性学者的重视。
今年,来自UCSC 的Wang-Chiew Tan获此奖项。Wang-Chiew是Megagon Labs的研究主任,她在数据起源、数据整合跨度的理论和实践做出杰出贡献。
此次大会,Wang-Chiew所在的Megagon Labs投稿名为“Subjective Databases”的论文被Research Paper接收,这篇论文提出了一个“可以理解人类主观意见”的数据模型和系统,称为OpineDB,它可以理解“适合浪漫约会的餐厅”这样颇具主观色彩的条件。
Test of Time Award
10年最佳论文奖,VLDB组委会每年选取10年前接收的论文中最具影响力的几篇,并且格外关注其在工业场景下的影响。
十年前,数据库架构在TP和AP方向都发生了深刻变化,今年获奖的两篇论文,在当时例证了系统转变的可行性,对后续的学术研究和工业实践产生了显著的影响。
2009年发表的“HadoopDB : An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads”。这篇论文提出了一个将MapReduce和并行数据库相结合的系统--HadoopDB,既具备MapReduce系统的灵活、容错和可扩展性,又拥有接近并行数据库的效能。十年中,这篇论文被数据仓库、数据分析、分布式数据库、MapReduce系统等研究引用上千次,其中包括Spanner、Dremel这样被熟知、广泛应用的产品。
2008年发布的“PNUT S: Yahoo!'s hosted data serving platform”。PNUTS是Yahoo!内部使用的大规模并行分布式数据库,数据分布在全球多个数据中心,能够提供较高的可用性和容错。
发表至今,此篇论文被引用1200 次,涵盖分布式数据库、分布式存储、云计算等领域,其中不乏Spanner、Azure这样的明星产品。
国内参会情况
此次VLDB国内投稿论文涵盖图数据、分布式、机器学习、数据清洗、查询处理、事务处理、数据整合、数据分析、RDBMS、知识图谱、数据安全、存储等方向。清华大学、人民大学、北京大学等诸多高校,以及腾讯、华为等公司在会上带来论文报告,并开设展位与国内外数据库从业者和爱好者深入交流。
大会Industry Paper报告现场,中国人民大学的卢卫教授带来“A Lightweight and Efficient Temporal Database Management System in TDSQL”的分享。这是中国人民大学和腾讯TDSQL的最新联合研究成果,基于TDSQL扩展而来的全时态数据库系统,该系统在保证OLTP性能的前提下,提供了轻量级的全时态数据管理功能和全时态数据的事务处理能力、以及集当前态数据于生产系统集历史态数据于分析型系统的集群架构,构成了全时态数据的完备解决方案。论文原文地址:http://www.vldb.org/pvldb/vol12/p2035-lu.pdf。
Q&A环节,现场观众对数据迁移、历史数据的清理策略和维护周期提出问题并展开讨论。
大会Tencent展台,腾讯数据库团队向数据从业者介绍了金融级分布式数据库TDSQL的发展历程,应用场景,分布式、强一致、弹性扩容、智能运维等特性,吸引了国内外金融、保险、数据库领域从业者极大兴趣。
TDSQL是腾讯TEG计费平台部自主研发的金融级分布式数据库,十几年来承载了腾讯近90%的金融、交易、计费类业务。从2014年开始,TDSQL通过腾讯金融云平台对外开放,提供稳定可靠的云数据库服务,目前在公有云上服务金融机构500余家,为中国银行、微众银行在内的超过44家银行及政企机构提供专有云服务。
TDSQL一直致力于数据库技术自主研发投入,在VLDB 2018上,腾讯TDSQL通过Short Paper展示了合作成果MSQL ,一个基于TDSQL的插件式近似查询工具https://mp.weixin.qq.com/s/BZZOH20NfRyCltPkl7Q7_Q。今年是TDSQL连续第二年参加VLDB,并向学界贡献领先的研究成果。同时,腾讯TDSQL持续通过腾讯高校合作犀牛鸟科研专项、高校联合实验室等平台与学界建立科研合作,推动技术创新。本次入选论文也是基于与人大长期高校合作产出的优秀成果。