【热点专刊】大数据治理的理论与技术(附链接)

2023-03-29 11:02:08 浏览数 (2)

代码语言:javascript复制
来源:软件学报微站本文约2500字,建议阅读5分钟本专题旨在探究大数据治理所面临的核心技术挑战。

大数据治理的理论与技术专题

数字经济时代, 数据已成为新型生产要素, 大数据技术更是数据要素市场发展的核心科技引擎。然而, 近年来大数据使用中普遍存在着“重采集轻管理、重规模轻质量、重利用轻安全”的现象。科学而有效地进行大数据治理将有助于提升数据质量、降低管理成本、增强决策能力。本专题旨在探究大数据治理所面临的核心技术挑战, 面向数据的全生命周期, 不仅研究劣质数据的清洗与修复等数据治理技术, 也讨论隐私安全与开放共享等内容, 还研究利用区块链、联邦学习、知识图谱、数据定价等新技术形成大数据治理的新理论与新方法, 同时关注大数据治理在各应用领域的最新成果。

特 约 编 辑

中国人民大学 

 杜小勇教授

东北大学 

 杨晓春教授

北京航空航天大学 

 童咏昕教授

01、大数据质量管理技术

1、面向列语义识别的共现属性交互模型构建与优化

全部作者:高珊,袁宛竹,卢卫,王兰,张静,杜小勇

第一单位:数据工程与知识工程教育部重点实验室(中国人民大学)

针对政务数据孤岛系统中元数据语义难以互联互通的问题, 提出了基于预测阶段和纠错阶段的两阶段模型。在预测阶段, 提出了共现属性交互的CAI模型; 在纠错阶段, 结合语义标签之间的共现性, 通过引入纠错机制优化模型预测结果。

(原文链接:

http://www.jos.org.cn/html/2023/3/6787.htm)

2、面向聚合查询的Apache IoTDB物理元数据管理

全部作者:赵东明,邱圆辉,康瑞,宋韶旭,黄向东,王建民

第一单位:清华大学 软件学院

提出了一种面向聚合查询的Apache IoTDB物理元数据管理方案。该方案按照数据文件的物理存储特性切分数据, 并结合同步计算和异步计算策略, 优化数据的写入性能与系统效率。

(原文链接:

http://www.jos.org.cn/html/2023/3/6789.htm)

3、基于多视角的多类型错误全面检测方法

全部作者:彭锦峰,申德荣,寇月,聂铁铮

第一单位:东北大学 计算机科学与工程学院

提出了一种基于多视角的多类型错误全面检测模型CEDM。结合现有约束条件在属性、单元和元组层面进行多维度的统计分析, 构建基础检测规则, 进而基于语义关系从多个维度上更新扩展基础规则, 进而联合多个视角实现对多种类型错误的全面检测。

(原文链接:

http://www.jos.org.cn/html/2023/3/6791.htm)

4、兼顾行列的时序数据质量规则发现

全部作者:丁小欧,李映泽,王晨,王宏志,李昊轩

第一单位:哈尔滨工业大学 计算机科学与技术学院

提出了一种针对劣质时序数据治理的数据质量规则发现方法, 依据数据在行与列上依赖信息形成数据质量规则, 并对已有的数据质量规则体系进行表达力的扩展, 同时设计了时序数据质量规则挖掘方法, 实现了高效、准确地挖掘时序数据中隐藏的数据质量规则。 

(原文链接:

http://www.jos.org.cn/html/2023/3/6793.htm)

5、预训练语言模型实体匹配的可解释性

全部作者:梁峥,王宏志,戴加佳,邵心玥,丁小欧,穆添愉

第一单位:哈尔滨工业大学 计算学部

提出了一系列面向预训练语言模型的实体匹配技术。针对预训练语言模型的实体匹配技术效果不稳定、匹配结果不可解释的挑战, 采用数据集元特征属性相似度计算与预训练语言模型注意力机制相结合的方法增强低置信度预测结果, 提升实体匹配质量。 

(原文链接:

http://www.jos.org.cn/html/2023/3/6794.htm)

02、大数据联邦计算技术

1、面向数据联邦的安全多方θ-连接算法

全部作者:张媛媛,李书缘,史烨轩,周南,徐毅,许可

第一单位:软件开发环境国家重点实验室(北京航空航天大学)

提出了一种数据联邦的安全多方θ-连接算法, 在不泄露各自原始数据的前提下, 结合安全多方计算等隐私计算技术设计了一系列优化策略, 显著减少连接查询所需安全计算代价, 从而较大幅度地提升查询效率。

(原文链接:

http://www.jos.org.cn/html/2023/3/6795.htm)

2、基于联邦学习的跨源数据错误检测方法

全部作者:陈璐,郭宇翔,葛丛丛,郑白桦,高云君

第一单位:浙江大学 计算机科学与技术学院

提出了一种基于联邦学习的跨源数据错误检测方法FeLeDetect, 以在数据隐私保证的前提下利用跨源数据信息提高错误检测精度。为了降低联邦训练的通信开销和人工标注成本, 设计了一系列优化方法。从而使得在本地场景和集中场景下错误检测率均有较大幅度的提升。

(原文链接:

http://www.jos.org.cn/html/2023/3/6781.htm)

3、基于贡献度证明共识机制的去中心化联邦学习框架

全部作者:乔少杰,林羽丰,韩楠,杨国平,李贺,袁冠,毛睿,元昌安,Louis Alberto GUTIERREZ

第一单位:成都信息工程大学 软件工程学院

设计了一种高效的去中心化联邦学习框架EDFL。通过融合基于贡献度证明的共识机制, 角色自适应激励算法和区块链分区存储策略, 令EDFL框架可以降低存储开销, 同时提升联邦学习的学习效率。

(原文链接:

http://www.jos.org.cn/html/2023/3/6784.htm)

4、联邦学习贡献评估综述

全部作者:王勇,李国良,李开宇

第一单位:清华大学 计算机科学与技术系

综述了联邦学习领域中多参与方对学习过程贡献数据的估值指标、贡献评估方案和相关优化技术, 并展望了联邦学习贡献评估当前面临的挑战和未来发展方向。

(原文链接:

http://www.jos.org.cn/html/2023/3/6786.htm)

03、复杂动态环境的大数据治理技术

1、跳跃滤波: 一种面向大数据治理的动态数据摘要设计

全部作者:符鹏涛,罗来龙,郭得科,赵翔,李尚森,王怀民

第一单位:国防科技大学 系统工程学院

提出了一种面向大数据治理的动态数据摘要技术。该方法可随数据基数线性增长实现数据处理分析常数级别的处理效率, 从而有效支撑要求苛刻的大数据处理分析任务。

(原文链接:

http://www.jos.org.cn/html/2023/3/6782.htm)

2、面向开放大数据环境的动态数据保护系统

全部作者:屠要峰,牛家浩,王德政,高洪,徐进,洪科,阳方

第一单位:移动网络和移动多媒体技术国家重点实验室(中兴通讯股份有限公司)

提出了一个面向开放大数据环境的动态数据保护系统BDMasker, 通过基于查询依赖模型的精准查询分析及查询改写技术, 能够实现动态脱敏全过程对业务场景零影响。

(原文链接:

http://www.jos.org.cn/html/2023/3/6783.htm)

3、面向大数据分析的分布式矩阵计算系统研究进展

全部作者:陈梓浩,徐辰,钱卫宁,周傲英

第一单位:华东师范大学 数据科学与工程学院

综述了面向大数据治理应用的分布式矩阵计算系统的研究进展, 并从编程接口、编译优化、执行引擎、数据存储这4个层面分析了该领域所面临挑战并展望了潜在研究方向。

(原文链接:

http://www.jos.org.cn/html/2023/3/6785.htm)

04、大数据治理的应用技术

1、基于多粒度注意力网络的知识超图链接预测

全部作者:庞俊,刘小琪,谷峪,王鑫,赵宇海,张晓龙,于戈

第一单位:武汉科技大学 计算机科学与技术学院

提出了一种知识超图多元关系表示模型, 旨在增强知识图谱的数据质量, 进而基于多粒度神经网络对知识图谱缺失关系进行链接预测, 实现多维度、多元关系的整体性图谱补全。

(原文链接:

http://www.jos.org.cn/html/2023/3/6788.htm)

2、属性公平的异质信息网络上的社区搜索算法

全部作者:乔连鹏,侯会文,王国仁

第一单位:东北大学 计算机科学与工程学院

提出了基于属性公平的异质信息网络上的极大core挖掘问题, 设计了Adv-FkPcore算法以避免挖掘阶段中子图判定的高计算复杂性挑战, 并结合点标记方法优化算法针对异质信息网络的遍历效率。

(原文链接:

http://www.jos.org.cn/html/2023/3/6792.htm)

3、基于宽容训练和隐私保护的快速监控视频检索模型

全部作者:覃浩,王平辉,张若非,覃遵颖

第一单位:西安交通大学 网络空间安全学院

提出了一个面向大规模监控视频的安全、快速的视频检索模型。针对云端算力大、监控摄像头算力规模小的特点, 设计宽容训练策略对其进行定制化知识蒸馏, 将蒸馏后的轻量级模型部署在监控摄像头内, 同时使用局部加密算法对图像敏感部分进行加密, 在极低资源消耗的情况下实现隐私保护。 

(原文链接:

http://www.jos.org.cn/html/2023/3/6790.htm)

编辑:于腾凯

校对:林亦霖

0 人点赞