自底向上——知识图谱构建技术初探

in 知识图谱 Views: 3,216 s with 2 comments

“The world is not made of strings, but is made of things.”
——辛格博士,from Google.

知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理。
当下,知识图谱已在工业领域得到了广泛应用,如搜索领域的Google搜索、百度搜索,社交领域的领英经济图谱,企业信息领域的天眼查企业图谱等。
211125s37st840d84eo148.png

知识图谱的构建技术主要有自顶向下和自底向上两种。其中自顶向下构建是指借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库里。而自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的信息,加入到知识库中。

在知识图谱技术发展初期,多数参与企业和科研机构主要采用自顶向下的方式构建基础知识库,如Freebase。随着自动知识抽取与加工技术的不断成熟,当前的知识图谱大多采用自底向上的方式构建,如Google的Knowledge Vault和微软的Satori知识库。
在本文中,笔者主要想分享一下自底向上构建知识图谱的全过程,抛砖引玉,欢迎大家交流。

定义

俗话说:“看人先看脸。”在我们深入了解知识图谱之前,让我们先来看一下它长什么样子!
cafc5801da4f11303b2e4e291d0da51e.png

如图所示,你可以看到,如果两个节点之间存在关系,他们就会被一条无向边连接在一起,那么这个节点,我们就称为实体(Entity),它们之间的这条边,我们就称为关系(Relationship)
知识图谱的基本单位,便是“实体(Entity)-关系(Relationship)-实体(Entity)”构成的三元组,这也是知识图谱的核心。

2-数据类型和存储方式

知识图谱的原始数据类型一般来说有三类(也是互联网上的三类原始数据):

3a8d89c60be585a0dc3fedc15ad334e1.png

如何存储上面这三类数据类型呢?一般有两种选择,一个是通过RDF(资源描述框架)这样的规范存储格式来进行存储,比较常用的有Jena等。
e23338091bb387ed0bad5e73cac18d29.png

还有一种方法,就是使用图数据库来进行存储,常用的有Neo4j等。
db7f74e41a5396963f20cde9e995548d.jpg

那你可能会问我了,你不就是一大堆的三元组吗,用关系数据库来存储不也一样嘛。
是的,用关系数据库来存储,尤其是存储简单的知识图谱,从技术上来说是完全没问题的。

但需要注意的是,一旦知识图谱变复杂,图数据库在关联查询的效率上会比传统的关系数据存储方式有显著的提高。当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。
除此之外,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。
因此如果你的数据量较大,还是建议直接用图数据库来进行存储的。

知识图谱的架构

知识图谱的架构主要可以被分为

逻辑架构

在逻辑上,我们通常将知识图谱划分为两个层次:数据层和模式层

如果还是有点模糊,可以看看这个例子——

模式层:实体-关系-实体,实体-属性-性值
数据层:比尔盖茨-妻子-梅琳达·盖茨,比尔盖茨-总裁-微软

技术架构

知识图谱的整体架构如图所示,其中虚线框内的部分为知识图谱的构建过程,同时也是知识图谱更新的过程。
2018-03-10_092729.png

别紧张,让我们顺着这张图来理一下思路。首先我们有一大堆的数据,这些数据可能是结构化的、非结构化的以及半结构化的,然后我们基于这些数据来构建知识图谱,这一步主要是通过一系列自动化或半自动化的技术手段,来从原始数据中提取出知识要素,即一堆实体关系,并将其存入我们的知识库的模式层和数据层。
构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段——

构建方式

知识图谱有自顶向下和自底向上2种构建方式。

构建技术

前面我们已经说过了,知识图谱有自顶向下和自底向上两种构建方式,这里提到的构建技术主要是自底向上的构建技术。
如前所述,构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段——

见下图——
2018-03-10_092729-1.png

下面我们依次来对每一个步骤进行介绍。(长文预警_(:з」∠)_)

信息抽取

信息抽取(infromation extraction)是知识图谱构建的第1步,其中的关键问题是——

如何从异构数据源中自动抽取信息得到候选指示单元。

信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。
涉及的关键技术包括:实体抽取、关系抽取和属性抽取。

实体抽取

实体抽取,也称为命名实体识别(named entity recognition,NER),是指从文本数据集中自动识别出命名实体。

比如在下图中,通过实体抽取我们可以从其中抽取出三个实体——“steve Balmer”, "Bill Gates",和"Microsoft"
49a8de6a26cbd64a6ed5ceffb371dad2.png

研究历史:

  1. 面向单一领域,关注如何识别出文本中的人名、地名等专有名词和有意义的时间等实体信息

    1. 启发式算法+人工规则,实现自动抽取实体的原型系统
    2. 统计机器学习方法辅助解决命名实体抽取问题
    3. 有监督学习+先验知识
  2. 开始关注开放域(open domain)的信息抽取问题,不再限定于特定的知识领域,而是面向开放的互联网,研究和解决全网信息抽取问题。

    1. 人工建立科学完整的命名实体分类体系
    2. 基于归纳总结的实体类别,基于条件随机场模型进行实体边界识别,最后采用自适应感知机实现对实体的自动分类
    3. 采用统计机器学习的方法,从目标数据集中抽取出与之具有相似上下文特征的实体,从而实现实体的分类和聚类。
    4. 迭代扩展实体语料库
    5. 通过搜索引擎的服务器日志,聚类获取新出现的命名实体。——已应用于自动补全技术

关系抽取

文本语料经过实体抽取之后,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,才能够形成网状的知识结构。这就是关系抽取需要做的事,如下图所示。
7d1b0425f10d856621a79b2087c6419a.png

研究历史:

  1. 人工构造语法和语义规则(模式匹配)
  2. 统计机器学习方法
  3. 基于特征向量或核函数的有监督学习方法
  4. 研究重点转向半监督和无监督
  5. 开始研究面向开放域的信息抽取方法
  6. 将面向开放域的信息抽取方法和面向封闭领域的传统方法结合

属性抽取

属性抽取的目标是从不同信息源中采集特定实体的属性信息,如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。

研究历史:

  1. 将实体的属性视作实体与属性值之间的一种名词性关系,将属性抽取任务转化为关系抽取任务。
  2. 基于规则和启发式算法,抽取结构化数据
  3. 基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取。
  4. 采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位。

知识融合

通过信息抽取,我们就从原始的非结构化和半结构化数据中获取到了实体、关系以及实体的属性信息。
如果我们将接下来的过程比喻成拼图的话,那么这些信息就是拼图碎片,散乱无章,甚至还有从其他拼图里跑来的碎片、本身就是用来干扰我们拼图的错误碎片。
也就是说——

那么如何解决这一问题,就是在知识融合这一步里我们需要做的了。
知识融合包括2部分内容:

实体链接

实体链接(entity linking)是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。
其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。

研究历史:

  1. 仅关注如何将从文本中抽取到的实体链接到知识库中,忽视了位于同一文档的实体间存在的语义联系。
  2. 开始关注利用实体的共现关系,同时将多个实体链接到知识库中。即集成实体链接(collective entity linking)

实体链接的流程:

  1. 从文本中通过实体抽取得到实体指称项;
  2. 进行实体消歧共指消解,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义;
  3. 在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体。

实体消歧是专门用于解决同名实体产生歧义问题的技术,通过实体消歧,就可以根据当前的语境,准确建立实体链接,实体消歧主要采用聚类法。其实也可以看做基于上下文的分类问题,类似于词性消歧和词义消歧。

共指消解技术主要用于解决多个指称对应同一实体对象的问题。在一次会话中,多个指称可能指向的是同一实体对象。利用共指消解技术,可以将这些指称项关联(合并)到正确的实体对象,由于该问题在信息检索和自然语言处理等领域具有特殊的重要性,吸引了大量的研究努力。共指消解还有一些其他的名字,比如对象对齐、实体匹配和实体同义。

知识合并

在前面的实体链接中,我们已经将实体链接到知识库中对应的正确实体对象那里去了,但需要注意的是,实体链接链接的是我们从半结构化数据和非结构化数据那里通过信息抽取提取出来的数据。
那么除了半结构化数据和非结构化数据以外,我们还有个更方便的数据来源——结构化数据,如外部知识库和关系数据库。

对于这部分结构化数据的处理,就是我们知识合并的内容啦。
一般来说知识合并主要分为两种——

合并外部知识库:
需要处理两个层面的问题:

一般有以下四个步骤:

  1. 获取知识
  2. 概念匹配
  3. 实体匹配
  4. 知识评估

合并关系数据库:
在知识图谱构建过程中,一个重要的高质量知识来源是企业或者机构自己的关系数据库。为了将这些结构化的历史数据融入到知识图谱中,可以采用资源描述框架(RDF)作为数据模型。业界和学术界将这一数据转换过程形象地称为RDB2RDF,其实质就是将关系数据库的数据换成RDF的三元组数据。

知识加工

经过刚才那一系列步骤,我们终于走到了知识加工这一步了!
感觉大家可能已经有点晕眩,那么让我们再来看一下知识图谱的这张架构图。
2018-03-10_092729-2.png

在前面,我们已经通过信息抽取,从原始语料中提取出了实体、关系与属性等知识要素,并且经过知识融合,消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。
然而事实本身并不等于知识。
要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。
知识加工主要包括3方面内容:本体构建、知识推理和质量评估。

本体构建

本体(ontology)是指工人的概念集合、概念框架,如“人”、“事”、“物”等。

本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大,且很难找到符合要求的专家,因此当前主流的全局本体库产品,都是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。

自动化本体构建过程包含三个阶段——

  1. 实体并列关系相似度计算

    • 用于考察任意给定的2个实体在多大程度上属于同一概念分类的指标测度,相似度越高,表明这2个实体越有可能属于同一语义类别。
    • 主流计算方法:模式匹配法和分布相似度。
  2. 实体上下位关系抽取

    • 用于确定概念之间的隶属(IsA)关系,这种关系也称为上下位关系。
    • 主要研究方法:①基于语法模式(如Hearst模式)抽取IsA实体对;②利用概率模型判定IsA关系和区分上下位词,通常会借助百科类网站提供的概念分类知识来帮助训练模型,以提高算法精度;③用跨语言知识链接的方法来构建本体库;
  3. 本体的生成

    • 本体生成主要是对各层次得到的概念进行聚类,并对其进行语义类的标定,即为该类中的实体指定1个或多个公共上位词。
    • 主要研究方法:实体聚类方法

比如对下面这个例子,当知识图谱刚得到“阿里巴巴”、“腾讯”、“手机”这三个实体的时候,可能会认为它们三个之间并没有什么差别,但当它去计算三个实体之间的相似度后,就会发现,阿里巴巴和腾讯之间可能更相似,和手机差别更大一些。
这就是第一步的作用,但这样下来,知识图谱实际上还是没有一个上下层的概念,它还是不知道,阿里巴巴和手机,根本就不隶属于一个类型,无法比较。因此我们在实体上下位关系抽取这一步,就需要去完成这样的工作,从而生成第三步的本体。
当三步结束后,这个知识图谱可能就会明白,“阿里巴巴和腾讯,其实都是公司这样一个实体下的细分实体。它们和手机并不是一类。”
524b204b7d97cded8086faedbf2caad0.png

知识推理

在我们完成了本体构建这一步之后,一个知识图谱的雏形便已经搭建好了。但可能在这个时候,知识图谱之间大多数关系都是残缺的,缺失值非常严重,那么这个时候,我们就可以使用知识推理技术,去完成进一步的知识发现。
比如在下面这个例子里——
2996e7ec1a9d857ea5efcc61497b6443.png

我们可以发现——
如果A是B的配偶,B是C的主席,C坐落于D,那么我们就可以认为,A生活在D这个城市。
根据这一条规则,我们可以去挖掘一下在图里,是不是还有其他的path满足这个条件,那么我们就可以将AD两个关联起来。除此之外,我们还可以去思考,串联里有一环是B是C的主席,那么B是C的CEO、B是C的COO,是不是也可以作为这个推理策略的一环呢?

当然知识推理的对象也并不局限于实体间的关系,也可以是实体的属性值,本体的概念层次关系等。
比如——

推理属性值:已知某实体的生日属性,可以通过推理得到该实体的年龄属性;
推理概念:已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)

这一块的算法主要可以分为3大类,基于逻辑的推理、基于图的推理和基于深度学习的推理
f655987077777a1f45213c129624e369.png

如果想要具体了解知识推理过程的算法综述的话,可以详见我的这篇博文:知识图谱中的关系推理,究竟是个什么玩意儿?

质量评估

质量评估也是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。

好啦,在质量评估之后,你是不是想说,妈耶知识图谱终于构建完毕了。终于可以松一口气了。

emmmm好吧,实不相瞒,知识图谱这个宝宝目前虽然我们构建成功了。
但是!你家宝宝不吃饭的啊!你家宝宝不学习的啊!

所以,让我们冷静一下,乖乖进入知识更新这一步……

知识更新

从逻辑上看,知识库的更新包括概念层的更新和数据层的更新

知识图谱的内容更新有两种方式:

知识图谱的应用

好了!终于终于!知识图谱的构建方式我们就此结束了!
为了让大家不立刻弃疗,让我们来看看知识图谱能做到什么,以及目前已经做到了什么~

事实上,知识图谱的应用远不止于此。在我看来,这个世界就是一张巨大的知识图谱,是无数个实体关系对,这两年工业界对图数据库、知识图谱的巨大需求也同样反映出了这一点。
就像这篇文章开头说的那句一样——

“The world is not made of strings , but is made of things.”
——辛格博士,from Google.

References

[1] 刘峤, 李杨, 段宏,等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3):582-600.
[2] 打怪的蚂蚁. CSDN. 知识图谱技术技巧. http://blog.csdn.net/xgjianstart/article/details/70214852
[3] Ehrlinger L, Wöß W. Towards a Definition of Knowledge Graphs[C]// Joint Proceedings of the Posters and Demos Track of, International Conference on Semantic Systems - Semantics2016 and, International Workshop on Semantic Change & Evolving Semantics. 2016.
[4] Das R, Neelakantan A, Belanger D, et al. Chains of Reasoning over Entities, Relations, and Text using Recurrent Neural Networks[J]. 2016:132-141.
[5] 薇拉航线. 知识图谱中的关系推理,究竟是个什么玩意儿. 2017,03. https://www.zuozuovera.com/archives/491/#directory077175446956507751

「一键投喂 软糖/蛋糕/布丁/牛奶/冰阔乐!」

薇拉航线

(๑>ڡ<)☆谢谢老板~

使用微信扫描二维码完成支付

Comments are closed.
  1. kevin

    希望博主继续写下去

    回复
  2. 母鸡啊

    最近在学习知识图谱,想看看如何在工业领域上应用,有机会还希望能向大佬请教!

    ps 看了整个博客,在下只能是佩服!

    回复