知识图谱完整项目实战(附源码)(3)

2019-01-14 16:42:27 浏览数 (1)

一、前言

本文是《知识图谱完整项目实战(附源码)》系列博文的第3篇:汽车知识图谱系统架构设计,主要介绍汽车领域知识图谱系统的总体架构设计和关键技术。

知识图谱的学习是一个基础到实战,从入门到精通的一个逐渐深入的、渐进式的过程。在这个过程中,一个完整的项目,起到的作用往往是对过往所学全部知识的串联和融合。只有经过一个完整项目的实践,才能真正把所学的、离散的、点状的知识点融合到一起,从而形成理论到实战的转变。基于这样的一个原因考虑,结合自身工程实践的过程,才有了这样一个课程,希望能够对渴望知识图谱能力进阶的人有所裨益。

二、正文

2.1 汽车知识图谱总体设计

汽车知识图谱的系统架构可以划分为五个层次:数据源、ETL知识抽取层、数据模型层、业务逻辑层、知识应用层。这里面层次的划分其实是在参考传统的数据系统建设的思路。

2.2 汽车知识图谱关键技术

知识图谱的关键技术可以从知识的来源进行区分,包括知识获取对应网络爬虫,ETL工具;知识存储对应图数据库;知识图谱可视化对应数据可视化分析工具等。

2.2.1 图数据库

Neo4j是图数据库领域的王者,连续多年在DB排行中处于第一,具有成熟的文档和稳定的系统,同时包括开源版本和企业版本,是构建知识图谱的首选。

Apache Jena是RDF和OWL的开发框架,同时提供了Fusike和TDB的数据访问和存储支持,是基于本体建模的最佳选择。

2.2.2 Python爬虫

python爬虫框架中,最为成熟和完整的框架是scrapy,目前为止是基于pyton构建网络爬虫的最佳选择。其工作流程和运行机制如下图所示:

三、未完待续

本文是《知识图谱完整项目实战(附源码)》系列博文的第3篇:汽车知识图谱系统架构设计,主要介绍汽车领域知识图谱系统的总体架构设计和关键技术。配套视频内容已同步发布在CSDN学院《知识图谱完整项目实战(附源码)》,敬请关注。

0 人点赞