事理图谱的定义

首先,给出事件、事件间顺承和因果关系的定义。事理图谱中的事件用抽象、泛化、语义完备的谓词短语来表示,其中含有事件触发词,以及其他必需的成分来保持该事件的语义完备性。抽象和泛化指不关注事件的具体发生时间、地点和具体施事者,语义完备指人类能够理解该短语传达出的意义,不至于过度抽象而让人产生困惑。例如,“吃火锅”,“看电影”,“去机场”,是合理的事件表达;而“去地方”,“做事情”,“吃“,是不合理或不完整的事件表达。后面三个事件因为过度抽象而让人不知其具体含义是什么。事件间顺承关系指两个事件在时间上先后发生的偏序关系;在英语体系研究中一般就叫做时序关系(Temporal Relation),本文认为两者是等价的。例如,“小明吃过午饭后,付完账离开了餐馆。”吃饭、付账、离开餐馆,这三个事件构成了一个顺承关系链条。事件间因果关系指在满足顺承关系时序约束的基础上,两个事件间有很强的因果性,强调前因后果。例如,“日本核泄漏引起了严重的海洋污染”。“日本核泄漏”和“海洋污染”两个事件间就是因果关系,“日本核泄漏”是因,“海洋污染”是果,并且满足因在前,果在后的时序约束关系。事件顺承关系是比因果关系更广泛的存在。

事理图谱(Event Evolutionary Graph)一个描述事件之间顺承、因果关系的事理演化逻辑有向图。图中节点表示抽象、泛化的事件,有向边表示事件之间顺承、因果关系。边上还标注有事件间转移概率信息。这种常识性事件演化规律往往隐藏在人们的日常行为模式中,或者用户生成的文本数据中,而没有显式地以知识库的形式存储起来。事理图谱旨在揭示事件间的逻辑演化规律与模式,作为对人类行为活动的直接刻画。

表1. 事理图谱与知识图谱的对比

事理图谱 知识图谱
研究对象 事件及其关系 实体及其关系
组织形式 有向图 有向图
主要知识形式 事件间顺承、因果关系,以及转移概率信息 实体属性和关系,实体上下位信息等
知识客观性 事件间演化规律的可能性度量 追求客观真实性

事理图谱与传统知识图谱有本质上的不同。如表1所示,事理图谱以事件为核心研究对象,有向边只表示两种事理关系,即顺承和因果;边上标注有概率信息说明事理图谱是一种事件间相继发生可能性的刻画,不是确定性关系。而知识图谱以实体为核心研究对象,实体属性以及实体间关系种类往往成千上万。知识图谱以客观真实性为目标,某一条属性或关系要么成立,要么不成立。

基于上文相关定义,我们从互联网无结构化数据构建了一个中文出行领域事理图谱。采用的语料是知乎“旅行”话题下的32万篇用户问答对。构建过程包括事件抽取、事件间顺承和因果关系识别、事件转移概率计算等步骤

理论上,事理图谱是一种概率有向图。它与概率图模型中的贝叶斯网络、马尔科夫逻辑网络既有不同又有联系。贝叶斯网络采用有向无环图来表达变量节点之间的条件依赖与独立性关系,马尔可夫随机场则采用无向图来表达变量间的相互作用关系。从这个层面上讲,事理图谱用有向有环图表达常量(事件)之间的演化关系。贝叶斯网络和马尔科夫逻辑网络的本质是研究多个随机变量的联合概率分布。而事理图谱是研究事件的链式依赖和表征事件发展方向的可能性。因此与贝叶斯网络和马尔科夫逻辑网络相比,事理图谱既有其结构特殊性,研究对象也有所不同。我们可以借鉴贝叶斯网络和马尔科夫逻辑网络中的研究成果,但研究对象的不同又对我们的理论和工具提出了新的要求。具体来说有环特性增加了事理图谱图结构的复杂性,因此传统概率图模型上的信念传播算法就面临了挑战。事理图谱这种复杂网络中的事件链条和链式依赖的挖掘与确定性评价也是一个全新的课题。

本质上,事理图谱提供了这样一种功能:给出一个抽象事件(“看电影”),它能告诉你围绕该抽象事件在时间演化顺序上先后可能发生什么样的事情(“订票”,“选座位”,“打车”,“取票”,“买饮料”,“排队入场”等)。据此,事理图谱将至少可以在以下两方面起到重要作用。

  1. 智能对话系统。如果在对话中出现了A事件,可以在回复中提及A的前提事件或后继事件,构造语义上更加智能与合理的回复。
  2. 消费意图识别与推荐系统。在事理图谱中,某些事件会成为消费意图显著事件(“去旅行”,“逛街”,“爬泰山”等),能够触发一系列后续消费事件。我们把这类事件节点找出来,有助于隐式消费意图的识别,进而做出合理的商品推荐。

事理图谱的应用不仅限于此。在人工智能应用中,常识推理是一种十分重要且必需的能力。作为一种常识性事件演化逻辑知识库,事理图谱的应用潜力十分巨大。