数据格式总览
OpenKG共有86个数据集。
首先,我们看一下其格式的标签列表。
可能与三元组相关的标签(一个数据集可能有多个标签)的总计数为 51,不算特别多,所以我打算把每个数集看一下,看看有没有 满足大小在 1G-10G
所有数据集共有5页。
下面图片中红框为可能符合要求的,其余 绿框内为格式或大小肯定不符合要求的。
第一页
下面我们一一来看第一页有可能可用的数据集
OMAHA术语集样例
下载后发现大小只有15k。
webdatacommons数据集
没有rdf格式的数据。
中文症状库 热门
进行下载后总大小只有10M
快雨-证券数据api
基于limes的中文知识图谱融合实战演练教程
是一个教程,测试数据大小28M。
国内主要中文百科知识图谱之间的链接数据集 热门
上图中可以看到四个文件的大小。
中文百科知识图谱Zhishi.me-提供Dump 热门
大小2.64G
下载解压后打开发现有非常多的压缩文件,数据都压扁了:
打开看文件内容
Zhishi.me 热门
对里面的所有可获取文件进行下载,发现和上一个数据集是一样的。
清华大学-科技知识图谱 热门
北京大学中文百科知识图谱-PKU-PIE 知识库 热门
分别点击三个浏览
尝试右击,没有反应
中文百科知识图谱-zhOnto-提供Dump 热门
基于CNSchema的城市知识图谱(交通数据) 热门
数据是按月份归档的,浏览第一个:
尝试下载或另存为这个文件,发现是禁止的:
空气质量语义描述
除了本体描述都是JSON-LD
第二页
http://www.openkg.cn/dataset?_res_format_limit=10&page=2
OpenStreetMap和Wikidata的实体链接数据集(部分国外区域)
浏览数据集:
发现 subject一直是主语,没有作为object,往下继续浏览这个文件也是。 下面检查一个ttl中的subject是否会是另一个文件的object:
包含的主语有 <http://openstreetmap.org/node/41231232> , 宾语均为属性。
包含的主语有: 包含的主语有 <http://openstreetmap.org/node/41231232>, 实体宾语有 <http://www.wikidata.org/wiki/Q355827>
没有实体宾语。
至此所有ttl文件,检查完毕,只有sameas 关系连接了两个实体,但是只有一跳。
百科人物概念与实例 热门
三个文件加起来不到100M。
KG-Buddhism
只有API,没有下载,且triple总数为 324,911,非常小。
音乐知识图谱 热门
网页数据无法下载或复制,且数据加载很快,估计不超过10M。
日本餐厅数据 热门
天气语义数据 热门
浏览第一个,下载下来是owl,且瞬间就下载下来了。
XLORE双语百科知识图谱 热门
影视双语知识图谱 热门
只有样例数据,尝试进入门户(查询系统),看是否开放源数据:
结果无法访问。
中医医案知识图谱 热门
该网站不提供下载。
第三页
http://www.openkg.cn/dataset?_res_format_limit=10&page=3
YAGO多语言知识库(包含中文) 热门
最后链接到yago官网,yago源数据集都是压扁的,且非常大。
Microsoft Concept Graph
对数据进行下载:
大小为300M
谓语都是数字
城市内涝语义数据 热门
BabelNet-多语言百科字典和语义网络 热门
搜索网站,没有下载。
中国旅游景点知识图谱 热门
人物类RDF知识 热门
文件瞬间打开,且subject不出现在object中。
疾病术语集 热门
Linked Open Schema
MulType
宾语全部都是属性
观测指标标识符逻辑命名与编码系统
乳腺癌临床试验语义标注
第四页
http://www.openkg.cn/dataset?_res_format_limit=10&page=4
Music 热门
11.4M
新三板企业数据
点击进去后是API文档:
突发事件知识图谱 热门
300kb不到
Clinga 热门
详细阅读文件后,找不到多跳关系。
Zhishi.lemon
跟之前的zhime差不多
herbnet
门户无法打开: