AI 前线导读:近日,微软研究院开源了新的数据项目,致力于促进全球研究界的广泛合作。有专家对此次开放数据项目评价道“这将成为大数据社区的游戏规则改变者。微软研究开放数据这样的项目能够减少数据共享的障碍,并通过云计算的力量鼓励可重复性。”微软在官方博客中写道:“微软研究外联小组一直在与外部研究团队开展广泛合作,并在过去几年当中积极推动云研究基础设施的采用工作。在这一过程中,我们体验到 Jim Gray 提出的数据密集型科学第四种发展模式的普遍性——目前,几乎所有研究项目都包含数据元素。这一趋势同时表明,除了计算机科学领域,其它跨学科与区域科学领域同样对经过精心规划以及有意义的数据集抱有旺盛需求。”这也是微软开放此数据项目的初衷。
今天,我们很高兴向大家介绍微软研究开放数据项目——这套新的云数据存储库致力于促进全球研究界的广泛合作。微软研究开放数据将提供一套便捷的数据集云托管平台,其同时代表着微软公司多年以来在一系列项目当中所使用的数据管理与研究成果。
为何要开放
我们的目标是为微软研究人员及各合作方提供一套简单的平台,用以共享数据集以及相关研究技术与工具。微软研究开放数据项目旨在简化对这些数据集的访问流程,促进各使用云资源的研究人员之间的协作,同时尽可能实现研究的可重复性。我们将继续塑造并发展这套存储库,并根据社区的反馈意见不断添加新的功能。
我们意识到,研究人员目前正在使用数十套数据存储库,并迫切希望其容量能够与现有工作的需求相契合。
图1 微软研究开放数据项目中的数据集
“这将成为大数据社区的游戏规则改变者。微软研究开放数据这样的项目能够减少数据共享的障碍,并通过云计算的力量鼓励可重复性。” -Sam Madden,麻省理工学院教授
随着数据总量以指数速度增长,人们普遍认为到 2025 年全球数据规模将超过 150 ZB。很明显,面对如此庞大的数据体量,我们应优先将处理资源引入数据,而非通过互联网带宽迁移海量数据。我们相信,提供这样一套将处理与数据加以结合的方案能够带来巨大的现实意义。
特点:分类多、覆盖范围广
微软研究开放数据中的数据集按照其主要研究领域进行分类,具体如图2所示。你可以在数据集当中找到研究项目或者出版物的链接。你可以浏览可用数据集并进行下载,也可以通过自动化工作流程利用 Auzre 订阅实现直接复制。该存储库尽可能符合数据共享领域的最高执行标准,旨在确保数据集的可发现性、可访问性、可互操作性以及可复用性 ; 且整套素材库不包含任何个人身份信息。我们将从用户当中获取反馈,从而推动该站点的进一步发展。
图2 数据集分类
精选数据集先睹为快
微软开放的数据集中包含很多有用的数据集,以下介绍若干精选数据集:
微软机器阅读理解(MS MARCO)
微软机器阅读理解(MS MARCO)是一个全新的阅读理解和问题解答大型数据集。 在 MS MARCO 中,所有问题都是从真正的匿名用户查询中抽样的。 从上下文语境中得到的回答是使用最高级版本的 Bing 搜索引擎从真实的 Web 文档中提取的。如果用户能够总结答案,则查询的答案由他们人工生成。
文件大小:469.03 MB
文件类型:json
许可证:微软研究数据许可协议
上次修改时间:6/5/18
类别:社会科学、社交媒体等
详细信息:
https://msropendata.com/datasets/2bda14a7-ee25-4092-8f2f-9272d48ae903
SigmaDolphin
用于建立一个自动解决用自然语言编写的数学单词问题的计算机系统。SigmaDolphin 是 2013 年初在微软亚洲研究院启动的一个项目,其主要目标是建立一个具有自然语言理解和推理能力的计算机智能系统。我们专注于研发自主解决问题的应用,即自动解决用自然语言编写的问题(特别是数学问题)。
文件大小:11.54 MB
文件类型:json,pdf,pkl,py,txt
许可证:微软研究数据许可协议
上次修改时间:6/21/18
类别:数学、统计学、逻辑学等
详细信息:
https://msropendata.com/datasets/f0e63bb3-717a-4a53-aa79-da339b0d7992
微软研究社交媒体对话语料库
此数据集是从 Twitter 日志中提取的代表 4232 个三步会话片段的 12,696 个 Tweet ID 集合。数据集中的每一行表示一个单独的上下文-消息-响应三元关系,众包注释者为上下文响应质量的评分平均为 4 或更高。数据已被随机分为调优(开发)和测试集,分别包含 2118 和 2114 个三元关系。但这个在自然语言处理社区的数据集仅供学术研究之用。为了访问底层推文和相关元数据,你需要调用 Twitter API。
如果你在研究中使用类似材料,可以引用以下文章:Alessandro Sordoni,Michel Galley,Michael Auli,Chris Brockett,Jiufeng Feng,Meg Mitchell,Jian-Yun Nie, Jianfeng Gao 和 Bill Dolan,A Neural Network Approach to Context-Sensitive Generation of Conversational Responses, Conference of the North American Chapter of the Association for Computational Linguistics – Human Language Technologies (NAACL-HLT 2015)。
与此和相关项目的更多信息可以在 http: //research.microsoft.com/en-us/projects/convo/ 上找到。
文件大小:245.46 KB
文件类型:txt
许可证:微软研究数据
许可协议:微软研究数据许可协议
上次修改时间:6/21/18
类别:社会科学,社交媒体等
详细信息:
https://msropendata.com/datasets/2bda14a7-ee25-4092-8f2f-9272d48ae903
NewsQA
每秒钟都会产生大量的书面文字,我们如何确保我们有最新的相关信息供使用呢? 微软研究蒙特利尔正在通过构建能够实时读取和理解大量复杂文本的 AI 系统来解决这个问题。NewsQA 数据集旨在帮助研究团体构建能够回答需要人类理解和推理技能的问题的算法。
文件大小:18.23 MB
文件类型:csv,md,pdf
许可证:微软研究数据
许可协议:微软研究数据许可协议
上次修改时间:6/21/18
类别:计算机科学
详细信息:
https://msropendata.com/datasets/939b1042-6402-4697-9c15-7a28de7e1321
在 Bing 查询中训练双字嵌入
这些数据仅可用于研究目的。DESM Word Embeddings 数据集包含一些可能被认为具有冒犯性、不雅或其他令人反感的词语。 Microsoft 尚未审查或修改数据集的内容。 Microsoft 此数据集仅为了便利的目的,对通过该数据集产生的任何不适内容概不负责。使用数据集需要你自担风险,保持判断力。有问题请联系论文作者。
文件大小:10.38 GB
文件类型:txt
许可证:微软研究数据
许可协议:微软研究数据许可协议
上次修改时间:6/21/18
类别:计算机科学
详细信息:
https://msropendata.com/datasets/30a504b0-cff2-4d4a-864f-3bc9a66f9d7e
其他的精选数据集还包括 Frames、Filling the Blanks for Mad Libs 等,这里就不一一详细介绍了。
如何获取微软开放数据集
微软此次开放的数据项目其中很多都是微软内部很先进技术会用到的数据集,数据分类多、覆盖范围广、资源珍贵,且用且珍惜,传送门先奉上:
https://msropendata.com/
除了提供数据资产下载选项之外,用户还可以将数据集直接复制至基于 Azure 的 Data Science 虚拟机当中,具体如图 3 所示。
图3 将数据由 microsoftopendata.com 复制至基于 Azure 的 Linux 虚拟机
Data Science 虚拟机预先安装有各类广受研究人员与从业者喜爱的开发工具,如图 4 所示。
图4 Linux Data Science 虚拟机
“我经常收到进行研究数据共享的请求,而我过去已经进行的单独分享也获得了不错的效果。利用 Azure,我们可以在统一平台上对数据集进行协调与编目,从而帮助内部与外部研究人员更轻松地实现访问、鼓励彼此协作。这同时也将为微软研究院提供便捷的云共享数据访问能力。” -John Krumm,微软研究院 AI 首席研究员
微软研究开放数据项目是微软研究院外联数据科学计划的成果之一。在这里,我们要感谢微软公司内各团队、微软研究人员、行业合作伙伴以及学术顾问之间的能力配合。没有他们的贡献,这一项目将不可能顺利完成。
策划编辑:Natalie
作者:Vani Mandava
译者:核子可乐
编辑:Debra
原文链接:
https://www.microsoft.com/en-us/research/blog/announcing-microsoft-research-open-data-datasets-by-microsoft-research-now-available-in-the-cloud/