在看到思知开源了1.4亿规模的中文知识图谱数据之后一直想试试对知识图谱的查询。奈何之前的服务器选购的是入门的1核2G学生认证的,不足以支持导入。
在前一阵子腾讯云活动中,买了一款3年 4核8G的服务器,才1600多,真香警告。
有了服务器,就开始捣腾了,首先安装好Neo4J图数据库,把相关的端口放开,主要是7687和7474端口。
本文也能在个人博客找到:https://cloud.tencent.com/developer/article/1632531
环境:
1.Neo4j database: 4.0.1 (是Neo4j graph数据库版本,非 neo4j desktop版本)
2.jdk11 (neo4j 4.0.1要求jdk需要11)
OwnThink开源了史上最大规模(1.4亿)中文知识图谱,地址:https://github.com/ownthink/KnowledgeGraphData
下载解压后查看知识图谱规模:
代码语言:javascript复制$ wc -l ownthink_v2.csv
140919781 ownthink_v2.csv
在github开源地址下可以找到阿里巴巴的一个下载数据源(链接 https://nebula-graph.oss-accelerate.aliyuncs.com/ownthink/kg_v2.tar.gz),下载之后解压,打开其中的 read_first.txt ,下载好简单清洗后的edge.csv和vertex.csv。
可以看到数据量很大,在阿里巴巴的压缩包中,还有一篇pdf文档,介绍了将数据导入nebula 图数据库中的步骤以及edge.csv和vertex.csv的格式,这里简单贴一下数据格式:
vertex.csv数据格式
edge.csv数据格式
在网上找了一下如何导入到neo4j中,参考了:https://yuukiblog.top/2019/10/16/neo4j导入知识图谱初体验/
Neo4j要求的数据格式(不清楚其他的格式能否导入):
entity.csv —— 作为图数据库中的实体::ID,name,:LABEL
:ID | name | :LABEL |
---|---|---|
实体id(不可重复) | 实体名 | 实体标签 |
rel.csv —— 作为实体的关系: :START_ID,name,:END_ID,:TYPE
:START_ID | name | :END_ID | :TYPE |
---|---|---|---|
实体ID | 关系名 | 实体ID | 类型 |
因此,首先在阿里巴巴清洗后的文本基础上将文件格式转成符合我们要求的格式。限于篇幅,代码这里就不贴了,如果有需要可以给我留言。最终转成的数据格式如下,使用Python读出了前10行:
转成需要的格式之后即可准备进行导入。首先将转换后的两个文件放入neo4j安装路径下的import文件夹。如果不知道在哪,可以通过Neo4j desktop打开本地的一个图数据库,点击Manage:
点击open folder即可打开import文件夹。
由于版本差异,上述文章中的导入命令无法运行,经过修改测试,个人使用如下格式成功进行导入:
./neo4j-admin import --database graph.db --nodes=../import/vertex_new_form.csv --relationships=../import/edge_new_form.csv --ignore-extra-columns=true --skip-duplicate-nodes=true --skip-bad-relationships=true
注:网上很多版本说需要先删除databases文件夹下的graph.db文件夹,从本人测试来看,完全不需要,上述命令中的graph.db可任意更换名称。
如果数据运行正确,会出现一下画面,首先确定导入需要的资源(对内存还是有一定要求的):
接着导入节点:
导入关系:
建立关系:
完成:
最终导入,csv格式中还是有错误的数据,因此设置了 skip-bad-relationships
:
IMPORT DONE in 19m 10s 463ms.
Imported:
45464785 nodes
139916576 relationships
185380388 properties
Peak memory usage: 688.9MiB
There were bad entries which were skipped and logged into
下面即需要将数据库进行展示,新建的graph默认有两个数据库,对应databases文件夹下的两个文件夹:neo4j和system。不知道为何使用上述命令导入之后新增的graph.db(名字和命令中的database参数有关)无法显示,也可能是本来就不会显示。。。
没办法,只能通过其他办法。对比了一下几个文件夹下的内容,发现可以将graph.db先dump再载入到现有的某个数据库几个,成功实现:
进入到安装目录的bin文件夹下,需要先新建好 dump 文件的目录:dump:
./neo4j-admin dump --database=graph.db --to=../backups/graph/2020-3-16.dump
在load到现有的数据库中,因为我原有的两个数据库是空的,不清楚是否会抹除已有的数据(应该不会),load:
./neo4j-admin load --from=../backups/graph/2020-3-16.dump --database=neo4j --force
更多参数参考: https://neo4j.com/docs/operations-manual/current/tools/dump-load/
接下来,在graph中选择你导入的数据库即可看到了,简单查询一下:
后续工作:
- 由于数据量较大,检索的时间较慢,后续看看有哪些优化查询速度的;
- 个人使用知识图谱主要服务于智能问答,下一步就是思考如何结合知识图谱做好智能问答了,有兴趣的小伙伴可以去这里试试我的智(智)能(障)问答。
update: 针对第一条,发现将检索的范围指定能加快检索速度,即:
MATCH p = (n1:ENTITY)-[r:RELATIONSHIP]->(n2:ENTITY) where n1.name ="微软" RETURN p