Dureader数据集

2019-12-18 17:28:05 浏览数 (1)

Dureader数据集

数据示例

代码语言:javascript复制
{"documents": [{
		"is_selected": true,
		"title": "iOS里,把一个页面链接分享给好友,好友在微信里打开这个链接,怎么跳",
		"most_related_para": 0,
		"segmented_title": ["iOS", "里", ",", "把", "一", "个", "页面", "链接", "分享", "给", "好友", ",", "好友", "在", "微信", "里", "打开", "这个", "链接", ",", "怎么", "跳"],
		"segmented_paragraphs": [
			["iOS", "里", ",", "把", "一", "个", "页面", "链接", "分享", "给", "好友", ",", "好友", "在", "微信", "里", "打开", "这个", "链接", ",", "怎么", "跳", "<splitter>", "iOS", "里", ",", "把", "一", "个", "页面", "链接", "分享", "给", "微信", "好友", "(", "会话", ")", ",", "好友", "在", "微信", "里", "打开", "这个", "链接", ",", "也", "就是", "打开", "了", "一", "个", "网页", ",", "点击", "网页", "里", "的", "某", "个", "地方", "后", "(", "比如", "网页", "中", "“", "打开", "xx", "应用程序", "”", "的", "按钮", ")", ",", "代码", "里", "怎么", "设置", "可以", "跳", "回到", "第三方", "app", "?", "知乎", "的", "ios", "客户端", "就", "有", "这种", "功能", ",", "在", "微信", "里", "分享", "链接", "后", ",", "点", "开", "链接", ",", "再", "点", "网页", "中", "的", "某处", ",", "就", "可以", "打开", "知乎", "客户端", "显示全部", "<splitter>", "微信", "中", "不能", "用", "自定义", "url", "的", "方式", ",", "微信", "提供", "了", "打开", "第三方", "应用", "的", "接口", ":", "launch", "3rd", "App", "<splitter>", "谢", "。", "一般", "用", "自带", "浏览器", "可以", "调用", "起", "app", "没问题", "。", "微信", "里面", "能", "调出", "app", "的", ",", "是", "和", "腾讯", "有", "合作", "的", "应用", ",", "其他", "会", "被", "过滤", "掉", "。", "<splitter>", "有", "一", "个", "公司", "的", "产品", ",", "叫", "魔", "窗", ",", "免费", "可以", "接入", "的", "<splitter>", "分享", "出去", "的", "是", "一", "个", "网页", ",", "前端", "人员", "与", "app", "客户端", "人员", "约定", "好", "一", "个", "头部", "协议", "。", "当", "用户", "在", "网页", "的", "点击", "某", "个", "按钮", ",", "调用", "注册", "的", "协议", "头", ",", "就", "可以", "呼", "起", "安装", "的", "app", "。", "比如", "知乎", "app", "可能", "注册", "了", "zhifu", ":", "/", "/", "xxx", "zhifu", ":", "/", "/", "就是", "约定", "好", "的", "xxx", "是", "指", "参数", "可以", "任意", "带", "这样", "访问", "后", "就", "可以", "呼", "起", "app", "了", "。", "<splitter>", "目前", "已经", "解决", "直接", "从", "微信", "打开", "的", "链接", "可以直接", "点击", "下载", "APP", "的", "跳转", ",", "无需", "再", "通过", "另外", "浏览", "中", "打开", "才能", "点击", "下载", ",", "在", "微信", "中", "即可", "直接", "点击", "下载", ",", "需要", "的", "联系", "QQ", "77408026", "<splitter>", "你可以", "去", "看看", "openinstall", ",", "它", "可以", "实现", "让", "用户", "分享", "链接", "让", "别", "的", "用户", "可以打开", "下载", "或者", "跳转", "APP", "。", "而且", "打开", "或者", "下载", "后", "还能", "获取", "到", "自己", "想", "传", "过去", "的", "参数", "。", "<splitter>", "方法", "一", ":", "微信", "API", "-", "-", "WXApp", "Extend", "Object", ".", "(", "参考", "app", "-", "微博", ")", "方法", "二", ":", "iOS", "9", "Universal", "Link", ".", "(", "参考", "app", "-", "蘑菇街", ")", "<splitter>", "目前", "要", "先", "用", "浏览器", "打开", ",", "然后", "才能", "跳", "。", "有", "解决办法", "么", "<splitter>", "下载", "知乎", "客户端", "与", "世界", "分享", "知识", "、", "经验", "和", "见解", "<splitter>", "相关", "Live", "推荐"]
		],
		"paragraphs": ["iOS里,把一个页面链接分享给好友,好友在微信里打开这个链接,怎么跳<splitter>iOS里,把一个页面链接分享给微信好友(会话),好友在微信里打开这个链接,也就是打开了一个网页,点击网页里的某个地方后(比如网页中“打开xx应用程序”的按钮),代码里怎么设置可以跳回到第三方app?知乎的ios客户端就有这种功能,在微信里分享链接后,点开链接,再点网页中的某处,就可以打开知乎客户端显示全部<splitter>微信中不能用自定义url的方式,微信提供了打开第三方应用的接口:launch3rdApp<splitter>谢。一般用自带浏览器可以调用起app没问题。微信里面能调出app的,是和腾讯有合作的应用,其他会被过滤掉。<splitter>有一个公司的产品,叫魔窗,免费可以接入的<splitter>分享出去的是一个网页,前端人员与app客户端人员约定好一个头部协议。当用户在网页的点击某个按钮,调用注册的协议头,就可以呼起安装的app。比如知乎app可能注册了zhifu://xxxzhifu://就是约定好的xxx是指参数可以任意带这样访问后就可以呼起app了。<splitter>目前已经解决直接从微信打开的链接可以直接点击下载APP的跳转,无需再通过另外浏览中打开才能点击下载,在微信中即可直接点击下载,需要的联系QQ77408026<splitter>你可以去看看openinstall,它可以实现让用户分享链接让别的用户可以打开下载或者跳转APP。而且打开或者下载后还能获取到自己想传过去的参数。<splitter>方法一:微信API--WXAppExtendObject.(参考app-微博)方法二:iOS9UniversalLink.(参考app-蘑菇街)<splitter>目前要先用浏览器打开,然后才能跳。有解决办法么<splitter>下载知乎客户端与世界分享知识、经验和见解<splitter>相关Live推荐"],
		"segmented_paragraphs_scores": [1.0],
		"paragraphs_length": [415]
	}, {
		"is_selected": true,
		"title": "怎么可以在微信里面打开APP下载链接地址_百度经验",
		"most_related_para": 0,
		"segmented_title": ["怎么", "可以", "在", "微信", "里面", "打开", "APP", "下载", "链接地址", "_", "百度", "经验"],
		"segmented_paragraphs": [
			["怎么", "可以", "在", "微信", "里面", "打开", "APP", "下载", "链接地址", "_", "百度", "经验", "<splitter>", "百度", "经验", ":", "jingyan", ".", "baidu", ".", "com", "<splitter>", "我们", "都", "知道", "手游", "、", "APP", "想", "在", "微信", "分享", "时", ",", "下载", "的", "链接", "会", "被", "微信", "屏蔽", ",", "不能", "直接", "点击", ",", "那", "怎样", "才能", "得到", "微信", "认可", "的", "下载", "页面", "呢", ",", "这里", "就", "需要", "用", "到", "腾讯", "的", "开放", "平台", ",", "而", "你", "的", "应用", "也", "需要提交", "到", "这个平台", "。", "在", "这里", "可以", "得到", "微信", "认可", "的", "链接地址", "。", "接下来", "介绍", "相关", "方法", "。", "<splitter>", "1", "首先", "打开", "腾讯", "开放", "平台", ",", "注册", "开放", "平台", "的", "一", "个", "账号", ",", "如", "下", "图", "所示", "。", "步骤", "阅读", "2", "登录", "后", "在", "”", "管理", "中心", "“", "中", "创建", "应用", ",", "如", "下", "图", "所示", "点击", "红线", "框", "选", "按钮", "。", "步骤", "阅读", "3", "选择", "创建", "应用", "的", "类型", "如", "下", "图", "所示", ",", "然后", "按钮", "提示", "填写", "应用", "的", "相关", "信息", ",", "提交", "进入", "审核", "。", "步骤", "阅读", "步骤", "阅读", "4", "应用", "审核", "通过", "后", "会", "在", "管理", "中心", "中", "显示", "”", "已", "上线", "“", ",", "然后", "点击", "应用", "的", "图标", "。", "步骤", "阅读", "5", "在", "应用", "详情", "中", "找到", "运营", "服务", "中", "的", "”", "微", "下载", "“", ",", "点击进入", "详情", "页面", "。", "步骤", "阅读", "6", "在", "详情", "页面", "中", "就", "可以", "看到", "系统", "生成", "的", "推广", "链接地址", "了", ",", "复制", "此", "地址", "就", "可以", "微信", "中", "转发", "了", "。", "步骤", "阅读", "END", "<splitter>", "经验", "内容", "仅供参考", ",", "如果", "您", "需", "解决", "具体", "问题", "(", "尤其", "法律", "、", "医学", "等", "领域", ")", ",", "建议", "您", "详细", "咨询", "相关", "领域", "专业人士", "。"]
		],
		"paragraphs": ["怎么可以在微信里面打开APP下载链接地址_百度经验<splitter>百度经验:jingyan.baidu.com<splitter>我们都知道手游、APP想在微信分享时,下载的链接会被微信屏蔽,不能直接点击,那怎样才能得到微信认可的下载页面呢,这里就需要用到腾讯的开放平台,而你的应用也需要提交到这个平台。在这里可以得到微信认可的链接地址。接下来介绍相关方法。<splitter>1首先打开腾讯开放平台,注册开放平台的一个账号,如下图所示。步骤阅读2登录后在”管理中心“中创建应用,如下图所示点击红线框选按钮。步骤阅读3选择创建应用的类型如下图所示,然后按钮提示填写应用的相关信息,提交进入审核。步骤阅读步骤阅读4应用审核通过后会在管理中心中显示”已上线“,然后点击应用的图标。步骤阅读5在应用详情中找到运营服务中的”微下载“,点击进入详情页面。步骤阅读6在详情页面中就可以看到系统生成的推广链接地址了,复制此地址就可以微信中转发了。步骤阅读END<splitter>经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。"],
		"segmented_paragraphs_scores": [1.0],
		"paragraphs_length": [266]
	}, {
		"is_selected": false,
		"title": "android微信分享的链接怎么启动app-CSDN论坛",
		"most_related_para": 0,
		"segmented_title": ["android", "微信", "分享", "的", "链接", "怎么", "启动", "app", "-", "CSDN", "论坛"],
		"segmented_paragraphs": [
			["android", "微信", "分享", "的", "链接", "怎么", "启动", "app", "-", "CSDN", "论坛", "<splitter>", "app", "中", "分享", "到", "微信", "已经", "成功", ",", "但是", "通过", "分享", "的", "连接", "无法", "启动", "app", "。", "<splitter>", "分享", "的", "链接", "就是", "普通", "的", "自定义", "url", ":", "myapp", ":", "/", "/", "www", ".", "myapp", ".", "com", ".", "<splitter>", "博客", "专家", "带", "你", "学", "swift", "晒", "图谱", ",", "涨", "知识", ",", "得", "好", "礼", "Swift", "问题", "与", "解答", "视频直播", "技术", "免费", "课"]
		],
		"paragraphs": ["android微信分享的链接怎么启动app-CSDN论坛<splitter>app中分享到微信已经成功,但是通过分享的连接无法启动app。<splitter>分享的链接就是普通的自定义url:myapp://www.myapp.com.<splitter>博客专家带你学swift晒图谱,涨知识,得好礼Swift问题与解答视频直播技术免费课"],
		"segmented_paragraphs_scores": [1.0],
		"paragraphs_length": [73]
	}, {
		"is_selected": false,
		"title": "android 从微信分享的网页中启动APP - mattdong1024的专栏 - CSDN",
		"most_related_para": 0,
		"segmented_title": ["android", "从", "微信", "分享", "的", "网页", "中", "启动", "APP", "-", "matt", "dong", "1024", "的", "专栏", "-", "CSDN"],
		"segmented_paragraphs": [
			["android", "从", "微信", "分享", "的", "网页", "中", "启动", "APP", "-", "matt", "dong", "1024", "的", "专栏", "-", "CSDN", "<splitter>", "项目", "中", "有", "个", "需求", ",", "让", "用户", "可以", "从", "分享", "到", "微信", "的", "网页", "中", "启动", "自己", "的", "APP", ",", "如果", "本", "机", "没有", "安装", "该", "应用程序", "则", "打开", "应用", "商店", "并", "打开", "该", "程序", "在", "商店", "中", "的", "搜索", "结果", "页面", "。", "在这里", "跟", "大家", "分享", "一", "下", ":", "<splitter>", "实践", ":", "从", "微信", "分享", "的", "网页", "中", "启动", "app", ",", "如果", "本", "机", "安装", "了", "该", "应用", "可以", "正常", "启动", ",", "如果没有", "安装", "该", "应用", ",", "会", "跳转", "到", "应用宝", "的", "网页", ",", "提示", "你", "下载", "应用", "<splitter>", "如果", "是", "从", "其他", "浏览器", "启动", "app", "的", "话", ",", "除了", "自带", "浏览器", "和", "谷歌", "浏览器", "外", ",", "其他", "第三方", "浏览器", "可能会", "有", "兼容性", "问题", ",", "也就是说", ",", "有", "可能", "无法", "从", "第三方", "浏览器", "启动", "app", "。"]
		],
		"paragraphs": ["android从微信分享的网页中启动APP-mattdong1024的专栏-CSDN<splitter>项目中有个需求,让用户可以从分享到微信的网页中启动自己的APP,如果本机没有安装该应用程序则打开应用商店并打开该程序在商店中的搜索结果页面。在这里跟大家分享一下:<splitter>实践:从微信分享的网页中启动app,如果本机安装了该应用可以正常启动,如果没有安装该应用,会跳转到应用宝的网页,提示你下载应用<splitter>如果是从其他浏览器启动app的话,除了自带浏览器和谷歌浏览器外,其他第三方浏览器可能会有兼容性问题,也就是说,有可能无法从第三方浏览器启动app。"],
		"segmented_paragraphs_scores": [1.0],
		"paragraphs_length": [146]
	}, {
		"is_selected": true,
		"title": "微信浏览器中点击链接怎么打开本地app_百度经验",
		"most_related_para": 0,
		"segmented_title": ["微信", "浏览器", "中", "点击", "链接", "怎么", "打开", "本地", "app", "_", "百度", "经验"],
		"segmented_paragraphs": [
			["微信", "浏览器", "中", "点击", "链接", "怎么", "打开", "本地", "app", "_", "百度", "经验", "<splitter>", "百度", "经验", ":", "jingyan", ".", "baidu", ".", "com", "<splitter>", "微信", "已经成为", "现代人", "生活", "中", "必不可少", "的", "一部分", ",", "下面", "我", "就", "教", "大家", "如何", "在", "微信", "浏览器", "中", "打开", "本地", "APP", "吧", "!", "<splitter>", "1", "将", "手机", "微信", "打开", "。", "步骤", "阅读", "2", "打开", "微信", "中", "的", "链接", "。", "步骤", "阅读", "3", "如图", "我们", "打开", "百度", "经验", "的", "链接", ",", "用", "微信", "浏览器", "进入", "网页", "以后", ",", "点击", "右", "上方", "如图", "符号", "。", "步骤", "阅读", "4", "进入", "选择", "页面", ",", "点击", "“", "在", "浏览器", "”", "打开", "。", "步骤", "阅读", "5", "如图", "会出现", "手机", "已", "安装", "的", "本地", "APP", "浏览器", ",", "我们", "选择", "一", "个", "自己", "想", "用", "的", "本地", "浏览器", "点击", "下方", "“", "仅", "一次", "”", "或", "“", "总是", "”", "都", "可以", "打开", "打开", "本地", "APP", "浏览器", "。", "步骤", "阅读", "6", "此时", ",", "我们", "就", "已经", "在", "微信", "浏览器", "中将", "本地", "APP", "浏览器", "打开", "了", "步骤", "阅读", "END", "<splitter>", "经验", "内容", "仅供参考", ",", "如果", "您", "需", "解决", "具体", "问题", "(", "尤其", "法律", "、", "医学", "等", "领域", ")", ",", "建议", "您", "详细", "咨询", "相关", "领域", "专业人士", "。"]
		],
		"paragraphs": ["微信浏览器中点击链接怎么打开本地app_百度经验<splitter>百度经验:jingyan.baidu.com<splitter>微信已经成为现代人生活中必不可少的一部分,下面我就教大家如何在微信浏览器中打开本地APP吧!<splitter>1将手机微信打开。步骤阅读2打开微信中的链接。步骤阅读3如图我们打开百度经验的链接,用微信浏览器进入网页以后,点击右上方如图符号。步骤阅读4进入选择页面,点击“在浏览器”打开。步骤阅读5如图会出现手机已安装的本地APP浏览器,我们选择一个自己想用的本地浏览器点击下方“仅一次”或“总是”都可以打开打开本地APP浏览器。步骤阅读6此时,我们就已经在微信浏览器中将本地APP浏览器打开了步骤阅读END<splitter>经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。"],
		"segmented_paragraphs_scores": [1.0],
		"paragraphs_length": [189]
	}],
	"answer_spans": [
		[47, 157]
	],
	"fake_answers": ["1将手机微信打开。步骤阅读2打开微信中的链接。步骤阅读3如图我们打开百度经验的链接,用微信浏览器进入网页以后,点击右上方如图符号。步骤阅读4进入选择页面,点击“在浏览器”打开。步骤阅读5如图会出现手机已安装的本地APP浏览器,我们选择一个自己想用的本地浏览器点击下方“仅一次”或“总是”都可以打开打开本地APP浏览器。步骤阅读6此时,我们就已经在微信浏览器中将本地APP浏览器打开了"],
	"question": "微信分享链接打开app",
	"segmented_answers": [
		["iOS", "里", ",", "把", "一", "个", "页面", "链接", "分享", "给", "微信", "好友", "(", "会话", ")", ",", "好友", "在", "微信", "里", "打开", "这个", "链接", ",", "也", "就是", "打开", "了", "一", "个", "网页", ",", "点击", "网页", "里", "的", "某", "个", "地方", "后", "(", "比如", "网页", "中", "“", "打开", "xx", "应用程序", "”", "的", "按钮", ")", ",", "代码", "里", "怎么", "设置", "可以", "跳", "回到", "第三方", "app", "?", "知乎", "的", "ios", "客户端", "就", "有", "这种", "功能", ",", "在", "微信", "里", "分享", "链接", "后", ",", "点", "开", "链接", ",", "再", "点", "网页", "中", "的", "某处", ",", "就", "可以", "打开", "知乎", "客户端", "。"],
		["1", "、", "首先", "打开", "腾讯", "开放", "平台", ",", "注册", "开放", "平台", "的", "一", "个", "账号", "。", "2", "、", "登录", "后", "在", "”", "管理", "中心", "“", "中", "创建", "应用", "。", "3", "、", "选择", "创建", "应用", "的", "类型", "如", "下", "图", "所示", ",", "然后", "按钮", "提示", "填写", "应用", "的", "相关", "信息", ",", "提交", "进入", "审核", "。", "4", "、", "应用", "审核", "通过", "后", "会", "在", "管理", "中心", "中", "显示", "”", "已", "上线", "“", ",", "然后", "点击", "应用", "的", "图标", "。", "5", "、", "在", "应用", "详情", "中", "找到", "运营", "服务", "中", "的", "”", "微", "下载", "“", "。", "6", "、", "在", "详情", "页面", "中", "就", "可以", "看到", "系统", "生成", "的", "推广", "链接地址", "了", ",", "复制", "此", "地址", "就", "可以", "微信", "中", "转发", "了", "。"],
		["1", "将", "手机", "微信", "打开", "。", "2", "打开", "微信", "中", "的", "链接", "。", "3", "我们", "打开", "百度", "经验", "的", "链接", ",", "用", "微信", "浏览器", "进入", "网页", "以后", ",", "点击", "右", "上方", "如图", "符号", "。", "4", "进入", "选择", "页面", ",", "点击", "“", "在", "浏览器", "”", "打开", "。", "5", "出现", "手机", "已", "安装", "的", "本地", "APP", "浏览器", ",", "我们", "选择", "一", "个", "自己", "想", "用", "的", "本地", "浏览器", "点击", "下方", "“", "仅", "一次", "”", "或", "“", "总是", "”", "都", "可以", "打开", "打开", "本地", "APP", "浏览器", "。", "6", "此时", ",", "我们", "就", "已经", "在", "微信", "浏览器", "中将", "本地", "APP", "浏览器", "打开", "了", "。"]
	],
	"answers": ["iOS里,把一个页面链接分享给微信好友(会话),好友在微信里打开这个链接,也就是打开了一个网页,点击网页里的某个地方后(比如网页中“打开xx应用程序”的按钮),代码里怎么设置可以跳回到第三方app?知乎的ios客户端就有这种功能,在微信里分享链接后,点开链接,再点网页中的某处,就可以打开知乎客户端 。", "1、首先打开腾讯开放平台,注册开放平台的一个账号。2、登录后在”管理中心“中创建应用。3、选择创建应用的类型如下图所示,然后按钮提示填写应用的相关信息,提交进入审核。4、应用审核通过后会在管理中心中显示”已上线“,然后点击应用的图标。5、在应用详情中找到运营服务中的”微下载“。6、在详情页面中就可以看到系统生成的推广链接地址了,复制此地址就可以微信中转发了。", "1将手机微信打开。2打开微信中的链接。3我们打开百度经验的链接,用微信浏览器进入网页以后,点击右上方如图符号。4进入选择页面,点击“在浏览器”打开。5出现手机已安装的本地APP浏览器,我们选择一个自己想用的本地浏览器点击下方“仅一次”或“总是”都可以打开打开本地APP浏览器。6此时,我们就已经在微信浏览器中将本地APP浏览器打开了。"],
	"answer_docs": [4],
	"segmented_question": ["微信", "分享", "链接", "打开", "app"],
	"question_type": "DESCRIPTION",
	"match_scores": [0.8815165876777251],
	"fact_or_opinion": "FACT",
    "question_id": 91159
    }

官方介绍

一些官方的介绍:http://ai.baidu.com/broad/download?dataset=dureader

DuReader version 2.0 contains more than 300K question, 1.4M evidence documents and 660K human generated answers.

There are 3 question types in the dataset. Below is data statistics of each question type:

We here provide 2 packages to download, each of them contains train set, development set and test set. DuReader_v2.0_raw.zip is the original DuReader Dataset, DuReader_v2.0_preprocess.zip is the preprocessed version of DuReader_v2.0_raw.zip, the preprocessing includes word segmentation, best match paragraph targeting, answer span locating. See readme included with this package for more details

To get started, please refer to:

  • Paper :DuReader: a Chinese Machine Reading Comprehension Dataset Built upon Real-world Applications.
  • Open source baseline system:https://github.com/baidu/DuReader.

论文介绍

百度在2017年发布了大规模的中文MRC数据集:DuReader。相比以前的MRC数据集,DuReader有以下特点:

  • 所有的问题、原文都来源于实际数据(百度搜索引擎数据和百度知道问答社区),答案是由人类回答的。
  • 数据集中包含大量的之前很少研究的是非和观点类的样本。
  • 每个问题都对应多个答案,数据集包含200k问题、1000k原文和420k答案,是目前最大的中文MRC数据集。

根据答案类型,DuReader将问题分为:Entity(实体)、Description(描述)和YesNo(是非)。

对于实体类问题,其答案一般是单一确定的回答,比如:iPhone是哪天发布?

对于描述类问题,其答案一般较长,是多个句子的总结,典型的how/why类型的问题,比如:消防车为什么是红的?

对于是非类问题,其答案往往较简单,是或者否,比如:39.5度算高烧吗?

同时,无论将问题分类以上哪种类型都可以进一步细分为是事实(Fact)类还是观点(Opinion)类。

0 人点赞