自然语言处理的发展历史人类的日常社会活动中,语言交流是不同个体间信息交换和沟通的重要途径。因此,对机器而言,能否自然地与人类进行交流、理解人们表达的意思并作出合适的回应,被认为是衡量其智能程度的一个重要参照,自然语言处理也因此成为了绕不开的议题。

早在上世纪50年代,随着电子计算机的出现,出现了许多自然语言处理的任务需求,其中最典型的就是机器翻译。当时存在两派不同的自然语言处理方法:基于规则方法的符号派和基于概率方法的随机派。受限于当时的数据和算力,随机派无法发挥出全部的功力,使得规则派的研究略占上风。

体现到翻译上,人们认为机器翻译的过程是在解读密码,试图通过查询词典来实现逐词翻译,这种方式产出的翻译效果不佳、难以实用。当时的一些成果包括1959年宾夕法尼亚大学研制成功的TDAP系统(Transformation and Discourse Analysis Project,最早的、完整的英语自动剖析系统)、布朗美国英语语料库的建立等。IBM-701计算机进行了世界上第一次机器翻译试验,将几个简单的俄语句子翻译成了英文。这之后苏联、英国、日本等国家也陆续进行了机器翻译试验。

1966年,美国科学院的语言自动处理咨询委员会(ALPAC),发布了一篇题为《语言与机器》的研究报告,报告全面否定了机器翻译的可行性,认为机器翻译不足以克服现有困难、投入实用。这篇报告浇灭了之前的机器翻译热潮,许多国家开始消减在这方面的经费投入,许多相关研究被迫暂停,自然语言研究陷入低谷。许多研究者痛定思痛,意识到两种语言间的差异不仅体现在词汇上,还体现在句法结构的差异上,为了提升译文的可读性,应该加强语言模型和语义分析的研究。

里程碑事件出现在1976 年,加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了名为TAUM-METEO的机器翻译系统,提供天气预报服务。这个系统每小时可以翻译6-30万个词,每天可翻译1-2千篇气象资料,并能够通过电视、报纸立即公布。在这之后,欧盟、日本也纷纷开始研究多语言机器翻译系统,但并未取得预期的成效。

到了90年代时,自然语言处理进入了发展繁荣期。随着计算机的计算速度和存储量大幅增加、大规模真实文本的积累产生,以及被互联网发展激发出的、以网页搜索为代表的基于自然语言的信息检索和抽取需求出现,人们对自然语言处理的热情空前高涨。在传统基于规则的处理技术中,人们引入了更多数据驱动的统计方法,将自然语言处理的研究推向了一个新高度。除了机器翻译之外,网页搜索、语音交互、对话机器人等领域都有自然语言处理的功劳。

进入2010年以后,基于大数据和浅层、深层学习技术,自然语言处理的效果得到了进一步优化。机器翻译的效果进一步提升,出现了专门的智能翻译产品。对话交互能力被应用在客服机器人、智能助手等产品中。这一时期的一个重要里程碑事件是IBM研发的Watson系统参加综艺问答节目Jeopardy。比赛中Watson没有联网,但依靠4TB磁盘内200万页结构化和非结构化的信息,Watson成功战胜人类选手取得冠军,向世界展现了自然语言处理技术所能达到的实力。

机器翻译方面,谷歌推出的神经网络机器翻译(GNMT)相比传统的基于词组的机器翻译(PBMT),英语到西班牙语的错误率下降了87%,英文到中文的错误率下降了58%,取得了非常强劲的提升。

来源: 10分钟带你读完人工智能的三生三世 | 机器之心