2017年10月26日,北京语言大学荀恩东教授应邀在教四楼105为学生做了题为“面向语言实证研究的统计技术”的讲座,这是人文社会科学学部汉语教育学院“语言学及应用语言学系列”专题的第四场讲座。
荀恩东教授开门见山,直奔主题,为满足与语言相关的理论及应用研究的需求,语言的统计研究必不可少,语料库的出现十分必然。
接下来,荀恩东教授主要从三个方面介绍语言实证研究中的统计技术。首先,他简单概述了语料库及语料库技术。语料库是为语言研究和应用为目的,存放在计算机里的语言数据;而语料库技术,则是在建立和使用语料库时,采用的信息化方法和手段。基于这些概念,荀恩东教授详细讲解了语料库的分类,语料库中的内容、技术、服务和贯彻整个语料库建设过程的信息技术。其中,从语料库建立流程上看,技术涉及语料采集、加工、标注、应用等;从语料形态上看,又包含文本、语音、图像、视频等多方面的处理。接着,荀恩东教授着重向同学们介绍了BCC语料库。BCC语料库是语言研究中常用的语料库之一,具有大数据、多语种、多形态的特点,可应用于语言本体研究、辞书编纂、语言教学、语言学习、语言应用等多领域。最后,教授向我们具体演示了BBC语料库的使用方法。基于BBC的语块获取方法主要有结构变换式和歧义消解两种。以“吃*(n)”为例,在语料库中搜索,可以得到相关搭配的频率。值得注意的是,在收集到的语料中,有一些为错误搭配,也有一些来源于日常生活的口语语料。BBC语料库的功能十分丰富而全面,可满足使用者在语言研究方面的大部分需求。
最后,荀恩东教授回答了同学们的疑问,指出:一,目前的BCC语料库只能进行形式功能上的区别划分,无法区别意义;二,BCC语料库可以有更多的功能,变得更加完善,但这是基于受众的广泛需求以及一个更大的团队。荀恩东教授还鼓励在场同学们积极加入他们的团队,一起研究,一起进步,让BCC语料库变得更加优秀。
荀恩东教授的讲座不仅让学生了解到了BCC语料库的研究成果,而且给大家展示了具体的研究方法和操作步骤。值得一提的是,荀恩东教授对BCC语料库的研究开发虽在技术和经费上完全自给,却是对校对外免费开放供大家使用。这种纯粹的科研精神和无私奉献的品质,令人肃然起敬。相信此次讲座给大家带来了或多或少的启发。