桂诗春,杨惠中-语料库 联系客服

发布时间 : 星期四 文章桂诗春,杨惠中-语料库更新完毕开始阅读7baa29d333d4b14e85246821

国家哲学社会科学 “九五”规划项目

中国学习者英语语料库

桂诗春 杨惠中

广东外语外贸大学 上海交通大学

国外语言学及应用 语言文字工程研究所语言学研究中心

上海外语教育出版社

1

目录

前言 I.

中国学习者英语语料库 一 导言

二 CLEC的建立 三 CLEC的统计分析

四 中国学习者言语失误统计分析 II. 词频排列(按频数)表 III. 拼写失误表 IV. 词目表 V.

词频分布表

VI. 语法标注频数表

(附

Lob134个语法标注的说明与例子)VII. 言语失误表

2

I.中国学习者英语语料库

一. 导言

中国学习者英语库(Chinese Learner English Corpus,CLEC)是国家社科基金95规划项目“基于语料库的中国学习者英语错误分析”(Corpus-based Analysis of Chinese Learner English,CBACLE)的一个重要组成部分。本书所载的是CLEC的各种统计资料和列表;对中国学习者英语错误的各种分析另收集在《中国学习者英语错误分析》一书里。两书为姐妹篇,供读者互相引证。

在某种意义上说,语料库语言学是一种研究方法; 而这种研究方法是借助计算机来实现

的,故Leech(1998a)主张把语料库语言学(corpus

表1.1 语料库研究方法 linguistics)说成是计算机语料库语言学(computer corpus

的发展 linguistics)。随着计算机的普及和现代技术(高速的中央处

时期 研究数目 理器、精密的扫描仪和字母识别程序、大容量硬盘等等)To 1965 10 的发展,这种研究方法在最近20~30年有了很大的发展。1966-1970 20 McEnery & Wilson(1996)对使用语料库方法来进行语言1971-197s 30 学研究的发展归纳如表1.1。 根据英国Lancaster大学Taylor, 1976-1980 80 Leech & Fligelstone等人在1989年的统计,英语的机读语1981-1985 160 料库当时已有36种,非英语的有18种。Hofland等人 1986-1991 320 (1999)更把18个大型的英语语料库制成ICAME(International Computer Archive of Modern English)英语语料库光盘(第二版),公诸于世。

语料库方法可以广泛地应用在语言学的各个领域(句法学、语音学、语义学、语用学、社会语言学、心理语言学、应用语言学,等等)。语料库和语言教学有密切的关系,它成为1994年ICAME年会的主题,1997年由Wichman等人将论文编辑为《教学与语言语料库》(1997)。根据Leech(1997)的说法,语料库运用到教学可以是直接的(如对学习者讲授语料库语言学、教他们使用语料库、利用语料库进行教学, 等等);也可以是间接的(如编辑词典、编写教材、语言测试,等等)。Leech还提出编写专门用途英语语料库、母语和二语语言发展的语料库、双语和多语语料库,以进一步探索语料库对教学的作用。二语语言发展的语料库也可称为学习者语料库(以后均略为LC,learner corpus)。Granger(1998)所编著的《计算机上的学习者英语》收录了15篇关于LC的论文,体现了语料库语言学研究者近年来探索在语言教学中使用语料库的各种努力。LC还可分为有标注(tagged)和无标注(untagged)两种,而有标注的LC还可以从不同的角度进行标注。从语法角度的标注叫做语法标注(grammatical tagging),主要是对词类(parts of speech, POS)标注;现在已经可能根据概率的原则,用计算机来进行自动化处理,准确率最高达95~97%。另一个角度从学习者的言语失误1来标注,叫做失误标注(error tagging)。它需要由人工进行,难度大而工 1

失误是失检(mistakes)和错误(errors)的合称。一般人把语言运用(performance)中的误差

3

作繁重,所以尽管有一些人在做这方面的努力,到目前为止,还未有一个对言语失误进行标注的LC正式问世。我们所建立的100万词的CLEC组织了一批教师对言语失误进行标注,体现了一种很有意义的尝试。它现在已经放在因特网上供教师试用,希望能获得反馈,以作进一步的改进;我们更希望教师们利用语料库所提供的信息,对中国学习者英语特点和英语失误进行探索,产生更多的研究成果,推进我国的英语教学。

根据Leech(1998b)的说法,建立LC的目的是:

? 比较LC和以目标语为母语的语料库(以后均略为ECNS,English Corpus of

Native Speakers),看有哪些语言特征是超用的 (overused)或少用的(underused)的?

? 学习者的母语在多大程度上影响了他们使用目标语的行为?

? 学习者的目标语在哪些方面达到或未达到目标语的说话人的言语行为?

? 学习者有哪些主要方面(按照频数)未能符合目标语说话人的言语行为而需要

特别的帮助?

这意味着我们需要从两个方面来分析学习者语料:一个方面是对比分析LC和别的ECNS的异同,我们选择了美国英语的Brown语料库和英国英语的LOB语料库,因为这两个语料库的数目都是100万个词左右,而且我们的学习者有的学美国英语,有的学英国英语。但是这两个语料库反映的是60~70年代英语使用情况,所以我们也尽可能使用Frown和FLOB来进行对比。这两个语料库是德国Freiburg 大学根据Brown和LOB两个语料库的采样方案收集90年代美国和英国英语语料建成的语料库。另一个方面是分析LC的言语失误,这是他们言语行为偏离目标语说话人的主要方面。应该说明的是学习者的语料偏离ECNS有许多方面,例如语言风格、文化色彩和母语影响等等,我们一下还未能对它们进行标注。因为对它们的标注有争议,而且带有较强的主观成分;而我们参与标注的人较多,难以统一。但我们的语料库一旦公诸于世,研究者就可以根据自己的需要对失误进行再分类和再标注,以便根据特定需要作更深入的研究。

叫做失检,这些误差是学习者可以自行检查出来,并作更正的;而错误则是语言能力(competence)中的误差,学习者不能自行更正。但是这种区分是从解释误差的角度提出来的,学习者语料库仅能提供言语误差,至于它们是失检,还是错误,则无法说明。例如一个词拼写错了,是因为学习者已经懂得它的正确拼写法,但在使用中不小心拼错了,还是因为学习者根本不懂其正确拼写法,需要研究者根据具体情况来解释,语料库是无能为力的。所以我们把这两种情况笼统称为失误。

4