这里的知识规律发现其实就是上文说的pattern learning。人们是按照一定书写方式来描述知识的,数据量越大越能体现出书写的语法及结构。康夫子的一个核心技术即针对要抽取的知识从海量文本中学习这种知识的描述方式。

上图是计算机阅读海量文献,针对某种知识总结出上万条书写规律然后进行抽取。如针对“疾病<—>症状”的关系,文献中描述方式为:“(X疾病)的症状有(Y症状)”,“(X疾病)临床表现为(Y症状)”,“(X疾病)容易引起(Y症状)等不适症状”等等。

在技术维度,较多层面是我们原创的技术,我们定义一个好的规律,既要体现出不同文本之间的区分性,又要能够尽可能的匹配到相似文本,另外还要追求量和简洁性。在这个目标约束下,剩下的就是求解优化的问题了。