太长了, 没有阅读: AI 的文本总结和 tldrs 的生成

艾伦人工智能研究所研究人员开发了一个人工智能模型,该模型可生成科学论文的单行摘要

作者:Gowtham R  Sundeep Teki 于 2020 年 12 月 28 日

TLDR (or TL;DR) is a common internet acronym for “Too Long; Didn’t Read.” It likely originated on the comedy forum Something Awful around 2002 (source) and then became more popular in online forums like Reddit. It is often used in social media where the author or commenters summarise lengthy posts and provide a TLDR summary of one or two lines as a courtesy to other readers. TLDRs help readers get the gist of the information and enable quick informed decisions on whether to invest the time in reading the full post.

借助自然语言处理 (NLP) 和自动文本汇总系统,TLDR 生成可以实现自动化。自动文本总结是一个具有挑战性的问题,即生成较短的长文档摘要,同时保留其本质。它在多个领域拥有广泛的实际应用,如法律合同分析、搜索(在网站总结使用信息、从维基百科文章中以实体为中心的总结)、问题解答系统、媒体(生成新闻标题、在时事通讯中总结文章)、营销(生成副本、口号)等。自动生成的文本摘要有助于缩短阅读时间,与人类创作摘要相比,无偏见,并且对许多个人日常应用(如电子邮件摘要、用于在 Twitter 等社交媒体网站上发帖的 TLDR 生成)也有好处。

Image for post

Image for post

图1:谷歌搜索中以实体为中心的总结(来源))

自动总结是一项具有挑战性的任务,因为AI模型需要理解源文本的域特定语言(科学论文、新闻文章、法律文档),确定源文本的显著特征(科学论文+问题陈述、新颖的贡献),并生成忠实于本文本质的连贯摘要。摘要越短,在源文本上抽象的就越多。

Image for post

Image for post

图2:科学论文TLDR摘要示例(来源)

艾伦人工智能研究所的研究人员最近开发出一种新的人工智能模型,能够生成科学论文的单句TLDR摘要(参考)。研究人员还提供了一个相关的数据集,并提出了一种多任务学习方法,用于微调预先训练的语言模型以生成TLDR。TLDR比纸质摘要短得多,并且没有必要的背景,并抓住了论文的重要方面。

文本总结的类型-提取与抽象总结

图3:文摘总结示例(作者图片)

自动文本汇总模型可分为提取模型或抽象模型。提取摘要器逐字从源文档文本中获取重要句子,并将它们串联在一起以创建摘要。抽象模型不是直接复制粘贴关键句子,而是创建抽象的类人摘要,其中涉及源文档中不存在的转述单词和句子。图 3 显示了提取与抽象摘要的示例。

虽然提取总结是多年来最流行的方法,但自然语言处理(NLP)[2,3]的最新进展使更抽象的总结模型的兴起[4,5,6]。

数据

图4:SciTLDR与现有汇总数据集的比较(来源))

为了训练模型,研究人员创建 SciTLDR 数据集,其中包含 5411 篇文章和 TLDR 对。为了收集不同论文的TLDR,研究人员使用 Openreview,一个包含作者撰写的论文摘要以及同行评审摘要的网站。它们收集TLDR-auth(从作者的角度对论文进行总结)和TLDR-PR(从同行评审者的角度收集论文摘要)。由于TLDR-PR往往更长,他们聘请了领域专家来重写这些摘要在15-25字。

与其他科学文档摘要数据集相比,SciTLDR 提供了多个黄金摘要(一个由论文作者编写,另一个由同行评审者编写)。这对于执行深入分析至关重要,并且由于 TLDR 中的内容可能有很多变化,因此必须进行深入评估。SciTLDR 数据集的压缩比(文档中的平均单词除以摘要中的平均单词或文章的压缩率)为 238.1,下一个最高值为 36.5。与具有 133000 个样本的 Pubmed [7] 和包含 215000 个样本的 Arxiv [7] 等海量数据集相比,数据样本 5411 的数量也有限。

模型

Image for post

Image for post

图 5:模型训练管道(源))
Image for post

Image for post

图 6:BART 模型,它由文本编码器(对嘈杂的输入文本进行编码并生成上下文表示)和从编码器的表示形式重建原始文本的解码器(源)

为了训练TLDR模型,作者使用BART [4],这是文本总结的一种技术模型。BART 是一个基于变形金刚 [2] 的模型,通过使用任意噪声(删除文本中的一些单词、更改句子顺序、用噪声替换单词等)对文本进行预训练,并训练模型以重建原始文本。

作者对 SciTLDR 数据集上的 BART 模型进行了微调,以生成一个句子摘要,给定论文的摘要或论文的 AIC(抽象 + 导言 + 结论部分)。为了解决培训数据规模有限问题,除了创建论文摘要的任务外,作者还使用多任务学习方法生成论文标题,同时提供论文摘要(见图5)。作者直觉到标题包含有关论文的重要信息,这可以增强创建摘要的学习过程。由于标题通常包含有关论文的关键信息,我们假设训练模型生成标题将允许它学习如何在论文中查找重要信息,这些信息对于生成 TLDR 也很有用。此外,所有论文都有标题,因此我们有充足的纸标题对供应培训“[1]

结论

自动文本摘要是一个有趣和令人兴奋的研究问题,具有广泛的行业应用,如新闻亮点,搜索引擎以实体为中心的总结,法律合同分析,问题解答系统,等等。NLP [2,3,4] 的最新发展也促成了人类式抽象总结的进展。最近的工作也测试了结合人类反馈,以培训和改进总结系统[8]取得了巨大成功。今后的工作可能包括根据用户兴趣而不是通用的摘要开发个性化摘要,以及将自动汇总器扩展到英语以外的语言、跨语言文档汇总等。

引用

[1] 卡乔拉、伊莎贝尔等人”TLDR:科学文献的极端总结”。arXiv 预印 arXiv:2004.15011 (2020)。

[2] 瓦斯瓦尼、阿希什等人”注意是您所需要的一切。(2017) 神经信息处理系统的进步。

[3] 德夫林、雅各布等人”伯特:深度双向变压器的预训练,用于语言理解。(2018) arXiv 预印 arXiv:1810.04805

[4] 刘易斯、迈克等人”巴特:自然语言生成、翻译和理解的按顺序到顺序的预训练。arXiv 预印 arXiv:1910.13461 (2019)。

[5] 张景清等人”飞马:训练前用提取的间隙句子进行抽象总结。机器学习国际会议。PMLR, 2020.

[6] 严、余等人”预言网:预测未来n-gram的序列到序列的预训练。arXiv 预印 arXiv:2001.04063 (2020)。

[7] 科汉、阿尔曼等人”一种对长文档进行抽象总结的论述意识关注模型”。arXiv 预印 arXiv:1804.05685 (2018)。

[8] 斯蒂农、尼桑等人”学会用人类的反馈进行总结。神经信息处理系统的进步 33 (2020).

发表评论