OpenKG数据逐一截图说明

2020-02-17 23:24:07 浏览数 (1)


数据格式总览

OpenKG共有86个数据集。

首先,我们看一下其格式的标签列表。

可能与三元组相关的标签(一个数据集可能有多个标签)的总计数为 51,不算特别多,所以我打算把每个数集看一下,看看有没有 满足大小在 1G-10G

所有数据集共有5页。

下面图片中红框为可能符合要求的,其余 绿框内为格式或大小肯定不符合要求的。

第一页

下面我们一一来看第一页有可能可用的数据集

OMAHA术语集样例

下载后发现大小只有15k。

webdatacommons数据集

没有rdf格式的数据。

中文症状库 热门

进行下载后总大小只有10M

快雨-证券数据api

基于limes的中文知识图谱融合实战演练教程

是一个教程,测试数据大小28M。

国内主要中文百科知识图谱之间的链接数据集 热门

上图中可以看到四个文件的大小。

中文百科知识图谱Zhishi.me-提供Dump 热门

大小2.64G

下载解压后打开发现有非常多的压缩文件,数据都压扁了:

打开看文件内容

Zhishi.me 热门

对里面的所有可获取文件进行下载,发现和上一个数据集是一样的。

清华大学-科技知识图谱 热门

北京大学中文百科知识图谱-PKU-PIE 知识库 热门

分别点击三个浏览

尝试右击,没有反应

中文百科知识图谱-zhOnto-提供Dump 热门

基于CNSchema的城市知识图谱(交通数据) 热门

数据是按月份归档的,浏览第一个:

尝试下载或另存为这个文件,发现是禁止的:

空气质量语义描述

除了本体描述都是JSON-LD

第二页

http://www.openkg.cn/dataset?_res_format_limit=10&page=2

OpenStreetMap和Wikidata的实体链接数据集(部分国外区域)

浏览数据集:

发现 subject一直是主语,没有作为object,往下继续浏览这个文件也是。 下面检查一个ttl中的subject是否会是另一个文件的object:

包含的主语有 <http://openstreetmap.org/node/41231232> , 宾语均为属性。

包含的主语有: 包含的主语有 <http://openstreetmap.org/node/41231232>, 实体宾语有 <http://www.wikidata.org/wiki/Q355827>

没有实体宾语。

至此所有ttl文件,检查完毕,只有sameas 关系连接了两个实体,但是只有一跳。

百科人物概念与实例 热门

三个文件加起来不到100M。

KG-Buddhism

只有API,没有下载,且triple总数为 324,911,非常小。

音乐知识图谱 热门

网页数据无法下载或复制,且数据加载很快,估计不超过10M。

日本餐厅数据 热门

天气语义数据 热门

浏览第一个,下载下来是owl,且瞬间就下载下来了。

XLORE双语百科知识图谱 热门

影视双语知识图谱 热门

只有样例数据,尝试进入门户(查询系统),看是否开放源数据:

结果无法访问。

中医医案知识图谱 热门

该网站不提供下载。

第三页

http://www.openkg.cn/dataset?_res_format_limit=10&page=3

YAGO多语言知识库(包含中文) 热门

最后链接到yago官网,yago源数据集都是压扁的,且非常大。

Microsoft Concept Graph

对数据进行下载:

大小为300M

谓语都是数字

城市内涝语义数据 热门

BabelNet-多语言百科字典和语义网络 热门

搜索网站,没有下载。

中国旅游景点知识图谱 热门

人物类RDF知识 热门

文件瞬间打开,且subject不出现在object中。

疾病术语集 热门

Linked Open Schema

MulType

宾语全部都是属性

观测指标标识符逻辑命名与编码系统

乳腺癌临床试验语义标注

第四页

http://www.openkg.cn/dataset?_res_format_limit=10&page=4

Music 热门

11.4M

新三板企业数据

点击进去后是API文档:

突发事件知识图谱 热门

300kb不到

Clinga 热门

详细阅读文件后,找不到多跳关系。

Zhishi.lemon

跟之前的zhime差不多

herbnet

门户无法打开:

第五页

0 人点赞