建立知识图谱打造机器大脑这项工作为什么需要打磨如此长的时间,难度如此之大呢?主要有以下几个方面的原因:

1. 对知识的表示尚有方法上的欠缺:人类社会积累的知识体系有着各种各样的形式,而当前机器所能理解执行的知识表示方法无法与之相匹配。例如,在知识图谱学术界广为使用描述语义目标关系的三元组,虽然是目前广为使用,但它简单到甚至无法直接表示“某人某时担任某公司的某职位”这一含有多个要素数量的模式,更不用说它无法直接描述多个目标之间的上下位关系和组成关系等复杂形式。因此,用三元组去对人类积累的知识体系来建模,有着表述能力的欠缺。除此之外,结合具体的文本上下文环境来定义语义目标以及它们之间的关系时,常见的知识手段基本为正则表达式加上布尔逻辑限制,无法描述语义目标出现的频率、顺序、间距等特征。这正是当前的主流自然语言处理技术无法有效做大规模知识抽取 的一个关键原因,在能使用的形式化方法上就与知识本身的自然定义相距甚远。

2. 冷启动难:在任何一个场景,需要定义和匹配的语义目标数量,随着分析的深入,都会爆炸式增长。例如,当我们需要建立法律领域的知识图谱时,首先想到的是将每一篇起诉书和判决书中的原告和被告等基本目标建模和抽取;当我们希望聚焦于某一种类型的案件时,以知识产权案件为例,继续需要抽取知识产权案件的主要证据要素和结果要素,多达上百项;而当我们需要更进一步深入地让计算机变成知识产权方面的高级专家时,则要全面列举那些所有与知识产权相关的要素,无论是否常见,这样的数量级会上千。而在定义这些成百上千的案件要素的过程中,我们还需要定义大量的中间语义要素,比如为了识别原告的住址这一要素,需要定义省、市、县、街道、门牌号等语义要素;为了定义门牌号,又要定义最基本的中文数字、阿拉伯数字、英文数字等基本语义要素。因此,在实际的工作中,通常需要定义成千万个的语义目标;为了确保通过机器学习识别这些要素具有较好的效果,要为这些目标中的每一个标注足够数量的有代表性的样本,这要耗费大量的人工,存在严重的冷启动难题。

3 工程难度极大:在实际的工作中,由于知识体系的复杂和巨大,以及待分析的数据为海量的非结构化文本,在建立知识图谱打磨这些文本时有着异常的工程难度。例如,成千上万的语义目标和它们之间的关系,光定义的文本可能就高达数百兆字节,目标之间可能相互依赖,关系之间可能相互冲突,如何将它们与海量的文本进行高效匹配,开展推理,难度可想而知。例如,当试图从数千万篇裁判文书中挖掘原告与被告之间的统计关系时,是先识别关系类型,还是先识别原告被告,这可能导致系统的运行效率有着巨大的不同。而在实际的工作中,如果我们希望提供一种通用的跨行业场景的知识图谱建模方法和匹配引擎,我们需要通盘考虑所有这些难题,以确保领域通用性的同时,在每一个领域里能足够细分和精准地定义并识别大量的语义目标。

来源: TML KnowledgeCloud如何实现“小知识+大数据=大知识” – 知乎