统计机器翻译综述 联系客服

发布时间 : 星期五 文章统计机器翻译综述更新完毕开始阅读2cff50ad0166f5335a8102d276a20029bd6463f8

统计机器翻译综述

刘群2

(北京大学计算语言学研究所 北京 100871) (中国科学院计算技术研究所 北京100080)

1

摘要:本文综述了基于信源信道思想和基于最大熵思想的统计机器翻译方法并介绍了

统计机器翻译的评测方法。基于信源信道的方法将翻译概率表示为一个语言模型和一个翻译模型。而基于最大熵的方法则是利用一系列实数值特征函数的线性组合来求解最优的译文。基于最大熵的统计机器翻译方法比基于信源信道的方法更具有一般性,后者可以看做前者的一个特例。

关键词:统计机器翻译 信源信道模型 最大熵方法 中图分类号:TP391

Survey on Statistical Machine Translation

LIU Qun

(Institute of Computational Linguistics, Peking University, Beijing 100871) (Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080)

Email: liuqun@ict.ac.cn

Abstract: The paper gives a survey on three approaches of statistical machine translation and the evaluation methods used in SMT. The basic idea of parallel grammar based approach is to build parallel grammars for source and target languages, which conform the same probabilistic distribution. In the source-channel approach, the translation probability is expressed as a language model and a translation model. In the maximum entropy approach, the optimal translation is searched according to a linear combination of a series of real-valued feature functions. The source-channel approach can be regard as a special case of maximum entropy approach.

Keywords: Statistical Machine Translation, Source Channel Model, Maximum Entropy Method

12

本文工作受国家重点基础研究计划(973)支持,项目编号是G1998030507-4和G1998030510。

刘群,男,1966年生,中国科学院计算技术研究所副研究员,同时在北京大学计算语言学研究所攻读在职博士学位,研究方向是自然语言处理和机器翻译。

1 概述

统计机器翻译,又称为数据驱动(data-driven)的机器翻译。其思想其实并不新鲜。早在1949年,Weaver发表的以《翻译》为题的备忘录中就提出:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。”这实际上就是基于信源信道思想的统计机器翻译方法的萌芽。实际上,早期的机器翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法,只是后来以Chomsky转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不再被人使用。1990年代初期,IBM的Brown等人提出了基于信源信道思想的统计机器翻译模型,并且在实验中获得了初步的成功,引起了研究者广泛的关注和争议。不过由于当时计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑。不过,近年来,随着越来越多的研究人员投入到统计机器翻译的研究中并取得了成功,统计方法已逐渐成为国际上机器翻译研究的主流方法之一。

作者根据所查阅的文献,把基于统计的机器翻译方法大体上分为以下三类:第一类是基于平行概率语法的统计机器翻译方法,其基本思想是,用一个双语平行的概率语法模型,同时生成两种语言的句子,在对源语言句子进行理解的同时,就可以得到对应的目标语言句子。这种方法的主要代表有Alshawi的Head Transducer模型和吴德恺的ITG模型,由于这类方法影响较小,而本文篇幅有限,这里不对这类方法进行介绍。第二类是基于信源信道模型的统计机器翻译方法,这种方法是由IBM公司的Peter Brown等人在1990年代初提出的[4,5],后来很多人都在这种方法的基础上做了很多改进工作,这也是目前最有影响的统计机器翻译方法,一般说的统计机器翻译方法都是指的这一类方法。第三类是德国Och等人最近提出基于最大熵的统计机器翻译方法[9],这种方法是比信源信道模型更一般化的一种模型。

本文将依次介绍后两类统计机器翻译方法,然后介绍一下在统计机器翻译中经常使用的机器翻译自动评测技术,最后给出总结。

2 基于信源信道思想的统计机器翻译方法 2.1 IBM的统计机器翻译方法

2.1.1 基本原理

基于信源信道模型的统计机器翻译方法的基本思想是,把机器翻译看成是一个信息传输的过程,用一种信源信道模型对机器翻译进行解释。假设一段目标语言文本T,经过某一噪声信道后变成源语言S,也就是说,假设源语言文本S是由一段目标语言文本T经过某种奇怪的编码得到的,那么翻译的目标就是要将S还原成T,这也就是就是一个解码的过程。

P(T) T P(S|T) S 根据Bayes公式可推导得到:

T?argmaxP(T)P(S|T)

T这个公式在Brown等人的文章[4]中称为统计机器翻译的基本方程式(Fundamental Equation of Statistical Machine Translation)。在这个公式中,P(T)是目标语言的文本T出现的概率,称为语言模型。P(S|T)是由目标语言文本T翻译成源语言文本S的概率,称为翻译模型。语言模型只与目标语言相关,与源语言无关,反映的是一个句子在目标语言中出现的可能性,实际上就是该句子在句法语义等方面的合理程度;翻译模型与源语言和目标语言都有关系,反映的是两个句子互为翻译的可能性。

也许有人会问,为什么不直接使用P(T|S),而要使用P(T)P(S|T)这样一个更加复杂的公式来估计译文的概率呢?其原因在于,如果直接使用P(T|S)来选择合适的T,那么得到的T很可能是不符合译文语法的(ill-formed),而语言模型P(T)就可以保证得到的译文尽可能的符合语法。

这样,机器翻译问题被分解为三个问题: 1. 语言模型Pr(t)的参数估计; 2. 翻译模型Pr(s|t)的参数估计; 3. 搜索问题:寻找最优的译文;

从1980年代末开始到1990年代中期,IBM的机器翻译研究小组在统计机器翻译的思想指导下进行了一系列的研究工作[4,5,2]并实现了一个法语到英语统计机器翻译系统。

对于语言模型Pr(t),他们尝试了采用n语法、链语法等语法模型。链语法模型比n元语法模型的优点在于可以处理长距离的依赖关系。下面我们着重介绍翻译模型。

2.1.2 IBM统计翻译模型

对于翻译模型Pr(f|e),IBM公司提出了5种复杂程度递增的数学模型[5],简称为IBM Model 1~5。模型1仅考虑词与词互译的概率t(fj|ei)。模型2考虑了单词在翻译过程中位置的变化,引入了参数Pr(aj|j,m,l),m和l分别是目标语和源语句子的长度,j是目标语单词的位置,aj是其对应的源语单词的位置。模型3考虑了一个单词翻译成多个单词的情形,引入了产出概率φ(n|ei),表示单词ei翻译成n个目标语单词的概率。模型4在对齐时不仅仅考虑词的位置变化,同时考虑了该位置上的单词(基于类的模型,自动将源语言和目标语言单词划分到50个类中)。模型5是对模型4的修正,消除了模型4中的缺陷(deficiency),避免对一些不可能出现的对齐给出非零的概率。

在模型1和2中,首先预测源语言句子长度,假设所有长度都具有相同的可能性。然后,对于源语言句子中的每个位置,猜测其与目标语言单词的对应关系,以及该位置上的源语言单词。在模型3,4,5中,首先,对于每个目标语言单词,选择对应的源语言单词个数,然后再确定这些单词,最后,判断这些源语言单词的具体位置。

这些模型的主要区别在于计算源语言单词和目标语言单词之间的连接(Connection)的概率的方式不同。模型1最简单,只考虑词与词之间互译的概率,不考虑词的位置信息,也就是说,与词序无关。好在模型1的参数估计具有全局最优的特点,也就是说最后总可以收敛于一个与初始值无关的点。模型2到5都只能收敛到局部最优,但在IBM的实验中,每一种模型的参数估计都依次把上一种模型得到的结果作为初始值,于是我们可以看到最后的结果实际上也是与初始值无关的。

下面以模型3为例,说明一下从源语言(英语)文本产生目标语言(法语)文本的过程: 1. 对于句子中每一个英语单词e,选择一个产出率φ,其概率为n(φ|e);

2. 对于所有单词的产出率求和得到m-prime;

3. 按照下面的方式构造一个新的英语单词串:删除产出率为0的单词,复制产出率为

1的单词,复制两遍产出率为2的单词,依此类推;

4. 在这m-prime个单词的每一个后面,决定是否插入一个空单词NULL,插入和不插

入的概率分别为p1和p0;

5. 设φ0为插入的空单词NULL的个数。 6. 设m为目前的总单词数:m-prime+φ0;

7. 根据概率表t(f|e),将每一个单词e替换为外文单词f;

8. 对于不是由空单词NULL产生的每一个外语单词,根据概率表d(j|i,l,m),赋予一个

位置。这里j是法语单词在法语串中的位置,i是产生当前这个法语单词的对应英语单词在英语句子中的位置,l是英语串的长度,m是法语串的长度; 9. 如果任何一个目标语言位置被多重登录(含有一个以上单词),则返回失败;

10. 给空单词NULL产生的单词赋予一个目标语言位置。这些位置必须是空位置(没有

被占用)。任何一个赋值都被认为是等概率的,概率值为1/φ0。 11. 最后,读出法语串,其概率为上述每一步概率的乘积。

2.1.3 搜索算法

从上述IBM Model 3的介绍中可以看出,对于统计机器翻译而言,搜索算法是一个严重的问题。因为搜索空间一般都是随着源语言句子的大小呈指数增长的,要在多项式时间内找到全局最优解是不可能的。为了在尽可能短的时间内找到一个可接受的译文,必须采用各种启发式搜索策略。

对于搜索问题,IBM采用一种在语音识别取得广泛成功的搜索算法,称为堆栈搜索(Stack Search),这里不做详细介绍。其他的搜索算法还有柱搜索(Beam Search)、A*搜索等等。

虽然搜索问题很严重,不过IBM的实验表明,搜索问题并不是统计机器翻译的瓶颈问题。实际上,统计机器翻译的错误只有两种类型:

1. 模型错误:即根据模型计算出概率最高的译文不是正确译文;

2. 搜索错误:虽然据模型计算出概率最高的译文是正确译文,但搜索算法没有找到这

个译文。

根据IBM的实验,后一类错误只占所有翻译错误的5%。

2.1.4 Candide系统

与传统的基于转换的机器翻译方法相比,我们可以看到IBM的统计机器翻译方法中没有使用任何的非终结符(词性、短语类等)。所有的参数训练都是在词的基础上直接进行的。

IBM的研究者基于上述统计机器翻译的思想,以英法双语对照加拿大议会辩论记录作为双语语料库,开发了一个法英机器翻译系统Candide [2]。

1992 Systran .466 Fluency 1993 .540 Adequacy 1992 .686 1993 .743 Time Ratio 1992 1993