2007年,华盛顿大学Banko等人[24]率先提出开放域信息抽取(OIE),直接从大规模自由文本中直接抽取实体关系三元组,即头实体、关系指示词,以及尾实体三部分,类似于语义网中RDF规范的SPO结构。在OIE提出之前,也有很多面向自由文本的信息抽取被提出,但这些方法主要的思路都是为每个目标关系训练相应的抽取器。这类传统的信息抽取方法在面对互联网文本中海量的关系类别时无法高效工作,即为每个目标关系训练抽取器时不现实的,更为严重的是很多情况下面对海量的网络文本我们无法事先明确关系的类型。OIE通过直接识别关系词组(relation phrases)也称关系指示词,即显式表证实体关系的词组,来抽取实体关系。基于OIE的指导思想,华盛顿大学陆续推出TextRunner[24]、Reverb[25]、OLLIE[26]等基于自由文本的开放域三元组抽取系统;以及卡耐基梅隆大学的NELL系统[27,29]、德国马普研究中心的PATTY等[28]。这些系统有的需要自动构造标注的训练语料,进而从中提取关系模版或训练分类器;有的则依据语法或句法特征直接从分析结果中抽取关系三元组。

来源: 知识图谱的发展概述 | 机器之心