冯志伟
(杭州师范大学特聘教授)
传统语言学的目的是规定正确阅读和写作的各种规则。 这种语言学有点像法律;
历史语言学采用谱系树的方法来表示不同语言之间的亲缘关系。 这种语言学就像生物学一样;
结构语言学试图找出语言中各个元素之间的结构关系。 这种语言学与化学非常相似。
那么,语言学和数学到底是什么关系呢?
华罗庚曾说过:“宇宙巨大,粒子微小,火箭的速度,化学工程的巧妙,地球的变化,生物的奥秘,日常生活的复杂。数学无处不在。” ” 马克思指出:“一种科学只有成功地运用数学,才能达到真正的完美”。 恩格斯还认为“任何科学的真正完美在于数学工具的广泛应用”。
他们都认识到数学在科学研究中的巨大价值。 数学之所以如此有用,是因为数学具有逻辑之美,而逻辑离不开任何领域。
那么,语言学和数学之间是什么关系呢?
语言学和数学都是历史悠久的古老学科。 语言学一直被认为是典型的人文科学,而数学则被很多人认为是最重要的自然科学。 在学校教育中,语文和数学被视为两门基础学科,成为所有受过教育的人的必修课。 他们似乎成了学校教育的两极:一极是以文科为代表的语文,另一极是以理科为代表的数学。 在普通人眼里,语文和数学似乎是两门毫不相干的学科; 有些人甚至认为用数学方法来研究语言是一种古怪、古怪的行为。 很少有人想到,这两个看似不同的学科之间有着深刻的内在联系。
漫长的发现过程
语言有奇妙的结构,数学有逻辑的美。 在人类科学发展史上,学者们经历了一个漫长的过程,才逐渐认识到语言学与数学的密切关系,并认识到可以用数学中的逻辑之美来揭示语言的结构之美。
前苏联数学家马尔可夫
早在19世纪中叶,就有人利用数学来研究语言现象。 1838年,英国学者皮特曼选了20本书,每本书500字,总计1万字。 他以此作为语料进行统计,得到了常用英语单词的频率表,于1843年出版。这可能是我所见过的文献中最早用数学方法研究词频的记录。
1913年,前苏联数学家马尔可夫运用概率论方法研究了《叶甫盖尼·奥涅金》中俄语元音和辅音字母序列的生成,提出了马尔可夫随机过程理论,后来该理论成为数学的一个独立分支这对现代数学产生了深远的影响。 语言结构中蕴含的数学规律成为马尔可夫创造性思维的源泉。 《叶甫盖尼·奥涅金》是普希金的长篇叙事诗,讲述了一个悲伤的爱情故事。 当我们阅读《叶甫盖尼·奥涅金》时,我们欣赏它的故事情节或独特的诗意节奏,而马可夫却独具慧眼,发现了隐藏在字里行间的数学规律。
1935年,美国语言学家齐普夫提出齐普夫定律,用数学方法描述频率词典中单词的序号和频率的分布规则。
计算机与语言的不解之缘
与此同时,一些优秀学者开始从计算机和通信的角度关注语言问题,并取得了突破性的成就。
英国数学家图灵
英国科学家图灵在 1950 年发表的《机器能否思考》一文中,天才地预见到计算机和自然语言将密不可分。 他提出,检验计算机智能水平的最好方法是让计算机说和理解英语。
20世纪50年代提出的自动机理论源自图灵1936年提出的算法计算模型。该模型被认为是现代计算机科学的基础。 图灵的工作首先提出了麦卡洛克-皮特神经元理论。 简单的神经元模型是可以使用命题逻辑描述的计算单元。 然后,图灵的工作导致了有限自动机和正则表达式的研究。 这些研究与语言的形式化描述密切相关,将数学与语言紧密联系在一起。
1948年,美国科学家香农用离散马尔可夫过程的概率模型来描述语言自动机。 1956年,语言学家乔姆斯基从香农的著作中吸收了有限状态马尔可夫过程的思想。 他首先使用有限状态自动机作为表征语言语法的工具,并将有限状态语言定义为由有限状态语法生成的语言。 这些早期的努力催生了“形式语言理论”领域,它使用代数和集合论将形式语言定义为符号序列。 乔姆斯基在研究自然语言时首次提出了上下文无关语法。 计算机科学家Backus和Nauer分别于1959年和1960年在描述ALGOL编程语言的工作中独立提出了Backus-Nauer。 Nauer 范式,发现他们提出的范式相当于乔姆斯基的上下文无关语法。 这些研究巧妙地将数学、计算机科学和语言学结合起来,极大地推动了学者们利用数学方法揭示语言的数学面貌。
这一时期的另一项基础研究工作是开发语音和语言处理的概率算法。 香农将使用通信通道或介质(例如声学语音)来传输语音行为比作噪声通道或解码。 他还借用了热力学中的“熵”一词来衡量通道的信息容量或语言的信息内容。 他用手工方法统计了英文字母的概率,然后利用概率技术首次测出了英文字母的熵达到4.03位,用数学方法描述了语言的统计规律。
在这些研究的基础上,语言学中出现了数学语言学、数量语言学等广泛运用数学方法的新兴学科。
法国数学家阿达玛是一位思想独特的学者。 他以自己的洞察力清楚地认识到,语言学是人文学科中最容易与数学联系起来的学科。 他斩钉截铁地说:“语言学是数学与人文学科之间的桥梁。”
显然,具有逻辑之美的数学确实可以帮助我们洞察语言的规律,发现语言的结构之美。
大数据时代的自然语言处理
美国数学家香农
进入信息网络时代后,语言研究开始从大规模真实文本语料库中获取语言知识,必须采用统计方法,进一步推动了数学在语言学中的应用。 在自然语言处理中,人们提出了基于统计的数学模型,例如隐马尔可夫模型、最大熵和噪声通道。 统计方法已成为机器翻译研究的主流。 机器翻译已经从基于规则变为基于统计。 统计机器翻译正在蓄势待发。 强劲并持续到2007年。
2007年以来,在大数据、云计算等因素的影响下,自然语言处理在基于统计方法的基础上向前迈进了一步,开始采用深度学习方法、机器翻译、自动问答、信息检索、信息研究等。提取等领域广泛使用循环神经网络、长短期记忆、卷积神经网络等深度学习数学方法。 深度学习优于统计方法,并取得了令人兴奋的结果。 自然语言处理的研究离不开数学。
法国数学家阿达玛
随着我国自然语言处理研究的进一步发展,越来越多的学者开始关注语言学中的数学方法,数学方法越来越多地应用于语言研究中。 甚至在传统的语言学研究中,也开始使用数学方法,用数学方法来研究语言,不再被认为是古怪、古怪的行为。 数学方法在语言研究中的运用现已得到我国语言学界的普遍认可。 随着自然语言处理研究的发展,数学已成为语言研究最重要的工具之一。
如今,现代语言学研究,特别是面向计算机的语言学研究,越来越离不开数学。 我们应该与时俱进,重新学习更新的知识,更加自觉地将数学方法运用到语言研究中,用数理逻辑之美揭示语言的奇妙结构,从而推动我国语言研究的现代化、信息化。
《光明日报》(2017年7月9日第12页)
评论列表