标签归档:数据

康夫子可以做到知识规律的自动发现,这个是如何做到的?

这里的知识规律发现其实就是上文说的pattern learning。人们是按照一定书写方式来描述知识的,数据量越大越能体现出书写的语法及结构。康夫子的一个核心技术即针对要抽取的知识从海量文本中学习这种知识的描述方式。

继续阅读

什么是NLG自然语言生成 ?

NLG范围很广,基于不同类型的输入有不同的子任务。输入包括图像、音频、表格、文本等等,最终都要生成文本。文本到文本的生成又可以包括多类子任务。比如基于长文本输出短文本,这就是文档摘要,而文本复述则是对文本的改写,输入输出长度相似,生成的文本与输入文本的语义相同,但文本表达会出现差异。  此外,还有对话生成、机器翻译也属于文本到文本生成的一个任务。机器翻译将一种语言的文本作为输入,输出另外一种语言的文本。对话生成则是根据上文生成回复。对话生成与机器翻译这两个领域很大,一般单独对待,而不归并到文本生成领域。除了文本到文本的生成之外,还有数据到文本的生成,比如根据财务报表生成财务描述文本等,在商业领域具有很重要的用途,目前很多单位都在研究这一技术。    根据语义、句法表示生成语句是学术界研究较多的一个NLG任务,在实际应用中实施起来比较复杂,因为会同时涉及到NLU和NLG两个难题。    最后,输入图像或视频,生成文本,这也是NLG的重点研究方向,更多研究则集中在计算机视觉(CV)领域。我们可以看到,NLG的整个范畴非常大,我个人则是最开始做文档摘要研究,后来逐步研究其他NLG任务。NLG的应用范围很广,包括现在非常受欢迎的对话机器人小冰、摘要生成、新闻生成、诗歌生成等。目前,NLG的应用需求很大,市场上对NLG技术的需求也十分广泛,包括一对多文章改写、小说剧本创作等等。但目前解决这些需求的难度很大,要让计算机实现真正意义上的创作难如登天,我们要做到的是让计算机起到辅助作用即可。对于一对多的文章改写,比如生产软文,如何把文章改写为各种风格,放在网上传播,让更多人看到。如果改写得不好,对于两篇内容高度相似的文章,改写的那篇会被屏蔽掉,我们需要保持原文语义不变的前提下进行大量改写,这一过程难度很大。此外,AI做主持人、进行辩论目前都很有挑战难度,虽然暂时无法投入使用,但可以先进行研究与探索。http://img.yuedusikao.com/1553740884044a1tLxjTeQp.jpg

机器学习的基础是什么?

对不确定性进行量化是机器学习的基础,我把它称为“现代观念下的机器学习”。传统上,我们认为机器学习模型是一种函数,将它与某些数据进行拟合从而进行预测,就像借助数据拟合曲线一样。在此过程中,你要不断调整参数设置,使神经网络能在训练集上得到正确结果,并在测试集上也有同样的效果。从更广泛意义上理解,机器学习真正的过程就是机器对这个世界进行建模,这个模型对不确定性进行量化,不确定性的积分就是概率。这种“基于模型的机器学习”借鉴先验知识、领域知识的想法,是机器学习领域非常重要的问题。不要把它看作一种特定技术,而要将其视为一种观点,一种理解机器学习的方法。