【玩转腾讯云】使用腾讯云助力知识图谱

在看到思知开源了1.4亿规模的中文知识图谱数据之后一直想试试对知识图谱的查询。奈何之前的服务器选购的是入门的1核2G学生认证的，不足以支持导入。

在前一阵子腾讯云活动中，买了一款3年 4核8G的服务器，才1600多，真香警告。

有了服务器，就开始捣腾了，首先安装好Neo4J图数据库，把相关的端口放开，主要是7687和7474端口。

本文也能在个人博客找到：https://cloud.tencent.com/developer/article/1632531

环境：

1.Neo4j database: 4.0.1 （是Neo4j graph数据库版本，非 neo4j desktop版本）

2.jdk11 (neo4j 4.0.1要求jdk需要11)

OwnThink开源了史上最大规模（1.4亿）中文知识图谱，地址：https://github.com/ownthink/KnowledgeGraphData

下载解压后查看知识图谱规模：

代码语言：javascript复制

$ wc -l ownthink_v2.csv
140919781 ownthink_v2.csv

在github开源地址下可以找到阿里巴巴的一个下载数据源（链接 https://nebula-graph.oss-accelerate.aliyuncs.com/ownthink/kg_v2.tar.gz），下载之后解压，打开其中的 read_first.txt ，下载好简单清洗后的edge.csv和vertex.csv。

可以看到数据量很大，在阿里巴巴的压缩包中，还有一篇pdf文档，介绍了将数据导入nebula 图数据库中的步骤以及edge.csv和vertex.csv的格式，这里简单贴一下数据格式：

vertex.csv数据格式

edge.csv数据格式

在网上找了一下如何导入到neo4j中，参考了：https://yuukiblog.top/2019/10/16/neo4j导入知识图谱初体验/

Neo4j要求的数据格式（不清楚其他的格式能否导入）：

entity.csv —— 作为图数据库中的实体：:ID,name,:LABEL

:ID	name	:LABEL
实体id（不可重复）	实体名	实体标签

rel.csv —— 作为实体的关系： :START_ID,name,:END_ID,:TYPE

:START_ID	name	:END_ID	:TYPE
实体ID	关系名	实体ID	类型

因此，首先在阿里巴巴清洗后的文本基础上将文件格式转成符合我们要求的格式。限于篇幅，代码这里就不贴了，如果有需要可以给我留言。最终转成的数据格式如下，使用Python读出了前10行：

转成需要的格式之后即可准备进行导入。首先将转换后的两个文件放入neo4j安装路径下的import文件夹。如果不知道在哪，可以通过Neo4j desktop打开本地的一个图数据库，点击Manage：

点击open folder即可打开import文件夹。

由于版本差异，上述文章中的导入命令无法运行，经过修改测试，个人使用如下格式成功进行导入：

./neo4j-admin import --database graph.db --nodes=../import/vertex_new_form.csv --relationships=../import/edge_new_form.csv --ignore-extra-columns=true --skip-duplicate-nodes=true --skip-bad-relationships=true

注：网上很多版本说需要先删除databases文件夹下的graph.db文件夹，从本人测试来看，完全不需要，上述命令中的graph.db可任意更换名称。

如果数据运行正确，会出现一下画面，首先确定导入需要的资源（对内存还是有一定要求的）：