领域图谱的评价标准是落地过程中常常被问及的问题。总体而言有三个方面的指标应该予以充分考虑。

第一个是规模。前面已经指出,绝对完备的知识库是不存在的,完备只能相对于一些封闭领域而言。因此,规模一般而言是个相对指标。关于规模问题,在落地过程有两个有意思的问题。一是,当前知识库是否足以支撑实际应用,或者多大规模就够了?这个问题没有绝对答案。我给出的是看实际应用的反馈,也就是知识图谱上线后的用户满意率。比如在利用知识图谱支撑语义搜索方面,多少查询能被准确理解,这个比率是个重要的指标。当然查询理解率不仅涉及知识图谱的覆盖率也关系到理解模型的准确率。因此,在实际评估中需要客观对待查询理解率,不能简单地将查询理解率直接等同于图谱覆盖率。

第二个指标是质量。当前AI系统努力避免的一个事实就是“Garbage-In-Garbage-Out”。喂给机器的是错误知识,就只会导致错误的应用结果。提升知识图谱质量是知识图谱构建的核心命题。那么知识图谱质量又应该从哪些维度进行衡量呢?我想至少有几个维度。

一是、准确率。比如是否存在错误事实,错误事实所占比例都是质量的直接反映。

二是、知识的深度。比如很多知识库只涵盖人物这样的大类,无法细化到作家、音乐家、运动员这些细分类目(fine-grained concepts)。

三是、知识的粒度。粒度越细应用越灵活,应用时精读越高。细化知识表示的粒度是领域知识图谱的构建过程中的重要任务之一。

第三个方面是实时。绝对实时是不现实的,因而实时大都从知识的延时(latency)角度进行刻画。短延时显然是我们期望的。知识图谱的更新是个复杂问题,不同的更新策略导致不同的延时。一般而言,知识图谱更新包括被动更新和主动更新两种方式。实际应用中往往是两种策略的结合。被动更新往往采取周期性更新策略,这种策略延时长,适用于大规模知识更新。主动更新,往往从需求侧、消费侧、应用侧出发,主动触发相关知识更新,适用于头部或者高频实体及知识的更新。关于知识库更新的细节,感兴趣的朋友可以参考知识工场微信公众号文章《百科知识图谱同步更新》。

来源: 贪心科技