Ectdzo在计算机的立场上讨论汉语理解问题 联系客服

发布时间 : 星期二 文章Ectdzo在计算机的立场上讨论汉语理解问题更新完毕开始阅读d6e8e51cc5da50e2524d7fc4

秋风清,秋月明,落叶聚还散,寒鸦栖复惊。

在计算机的立场上讨论汉语理解问题 Understanding Chinese Language from the

View Point of Computer

Zhou, Xiling Professor

BeiJing Information Technology Institute

Aug. 16,1997

Abstract

It is important to distinguish two mode of information transferring processes: detailed description mode and curtailed hint-mode. In history, the traditional style of Chinese writing is to focus on “terse and more message”. Thus Chinese writing is unique in its widely usage of Hint-Mode in various ways for the purpose of high efficiency as compared with other languages such as English and Japanese. This implies that the understanding of Chinese language depends in much more degree on the Common Knowledge between the information sender and the receiver. This kind of practise was carried out so hard that in many cases the reader (listener) has to rectify the meaning of a sentence via common sense instead of the result of syntax analysis. So far, our computer technology is far from being able to understand the “hint mode” expressions on the basis of common sense and knowledge, hence we have to restrict the style of statements in “description mode” before the computer can understand it.

摘要

必须区分信息传递过程中的两种方式:“详细的描述方式”与“简略的提示方式”。历来汉语的文风是强调“言简意赅”。与其他语言(例如英语和日语)相比,在中文的书面语言和口语中更多地使用了“提示方式”,从而意味着信息的理解要在更大的程度上依靠写读(说听)双方共同拥有的知识。这种做法是如此普遍以致于有时信息的接收者必须通过常识来校正语义分析所获得的信息。迄今的计算机技术远未达到这种主要依靠常识和专业知识来猜测语义的程度,从而必须把馈送给计算机的自然语言语句限制在“描述方式”的范畴之内。

前言

无论古代圣贤还是近代学者,都主张“多读书,慎立言”。然而本文基本上只从直觉和日常生活中对语言的感受出发,悖离了他们的教导。一来这是由于本人最近才进入自然语言处理这十分生疏的课题,因而完全没有语言学理论方面基本功的训练。二来是想到,凡事有一利必有一弊,多读书固然有好处,但是读书也就是“把脑子让别人跑马”,有如看电视剧就是把眼睛借给导演一样;在当前其他工作十分繁忙的情况下,如果囫囵吞枣,没有时间消化,自己的直觉反而会给马蹄践踏光了。第三是想,语言学家们进行了多年的研究和讨论,我们最好也在软件工作者的圈子里来讨论一下。最后,作为这个领域里的 freshmen, 即便说得不对、浅薄,乃至贻笑大方,大概都能得到软件同行和语言学家们的谅解。是为序。

两种信息传递方式

当我们要传递具有某种含义的信息时,大体上可以采取两种方式:详尽的“描述方式”和简略的“提示方式”。举例来说: ? ?

当使用C语言书写计算机程序的时候,我们可以只使用C语言中允许使用的基本语句,也可以调用程序库中的子程序、操作系统提供的SVC或API。前者属于“描述方式”,后者属于“提示方式”。 在绘画领域里,有以刻意详细描摹为特徵的“工笔画”,也有以简单勾勒线条,突出了对象特徵即止的“简笔画”(漫画和幼儿绘画教材为这一类的代表)。前者属于“描述方式”,后者属于“提示方式”。 ?

书画同源,人们说话的时候使用的语句也可以分为两种:“描述方式”和“提示方式”。“描述方式”讲究语法。要求通过语法所规定的结构和句子中诸成份之间的关系来比较精确地与这个句子所要描述的客观事物的结构相对应。“提示方式”则不同。它只挑选所要描述的客观事物中若干主要因素告诉对方,让对方利用双方说话时所处的环境和上下文中已经包含的信息,和对方已经具有的知识来补足语句中所省略的部份。如果一种语言的使用者在实际使用的时候能够比较严格地遵守语法和客观世界中事物之间的对应关系,并且对不同的情况区分得比较细腻,那么他所说的话是比较严谨的。使用的是“描述句”。反之,如果他所说的话比较简略。他使用的是“提示句”。这时候,语言的理解就要更多地依赖语境和说写方与读听方的共同知识,以排除歧义。

在区分以上两种信息传递方式时,我们当然会注意到以下几点: ? ?

“描述方式”和“提示方式”是可以混合使用的,在写计算机程序和人们相互交谈时尤其如此。 为了节省时间和精力,只要有可能,人们多半倾向于使用“提示方式”。但是,这样作,需要满足一个前提条件:信息的收发双方共享了相关的某种知识。漫画的读者如果要理解漫画家勾勒出来的某一名人的画像,他必须事先从报章、杂志或者电视上见过该名人;计算机编译程序必须在程序库中找得到有关库程序的implementation的描述才能进行编译;同样地,如果某篇文章中含有“胸有成竹”这一成语,读者必须事先知道“胸有成竹”这四个字所引用的故事,才能理解这段话的含义。 ?

换言之,“提示方式”的使用,提高了对信息接收方知识水平的要求。

描述句

世界上各种语言文字的语法互不相同,然而它们恐怕都要满足一个共同的要求,就是能够通过它们反映主客观世界中的事物以及事物与事物之间的关系。各种语言中用来与事物对应的词就是“体词”,它们相当于计算机软件中的“对象(object)”“实体(entity)”的概念。而为了描述事物与事物之间的关系,就产生了“谓词”(它们相当于计算机软件中的“关系(relationship)”)。为了区分1 :1还是n :m关系,就产生了单数和多数的概念。体词后来进一步细分为名词,代名词,等等。谓词后来进一步细分为动词,形容词,介词等等。有许多关系是有方向性的,例如“打”,为了指明某个实体位于关系的哪一方,有些语言中的体词就产生了语法“格”的概念,在动词上就产生了“主动态”与“被动态”的区别。在没有“格”和不大讲究“主动”与“被动”的汉语中就要在一定程度上依靠“语序”和“虚词”(虚词在汉语中似乎较多地用来指示关系的方向性)来表达这方面的概念。

汉语中的“提示句”

汉语中的“提示句”有两种情况。一种是通过成语引用一个“人所共知”的故事。例如:

另一种是把一个原来是完整的描述句中的若干成分省略,只留下关键性的词语。省略的部分要依靠读(听)者利用自己的知识补充回去。例如:

是“我”不来了,还是“老张”不来了,要看讲话的人是在打电话还是在等老张。至于社会上某一时期流行的缩略语,如:

更是如此。

汉语中的体词基本上没有“性,数,格”的区分,动词本身也不讲究“主动,被动”以及“过去,未来,现在”的时态区分。再加上中国文化传统历来讲究“言简意赅”。因此,与其他语言相比,汉语中使用“提示句”的情况比较多。不仅如此,汉语往往还允许语言的使用者违反“描述句”中所要求的语法规则,只要听者能够通过语义和语境在理解时把“错误”的语法或语序纠正过来就行。

以杜甫的名句“名岂文章著, 官应老病休”为例。最后五个字列举了五个概念:

按照正常的语法,简直无法理解它的意思。要理解,必需把这五个字的次序颠倒成:“老病应休官”,也就是:“由于 衰老生病,应该退休不当官了”。

当官 应该 衰老 生病 休息 五讲四美三热爱。 今天不来了。

他这样做简直是“杞人忧天”。

即便在现代的日常生活中,也仍然保留著这种语言现象。最典型的例子就是:“救火”与“恢复疲劳”这两种 普遍的说法。

产生这种奇怪现象的原因也许可以从小孩子学说话的过程中得到启示。幼儿学说话时, 开始多半没有按照一定语法去组织词句的能力,他只能把 代表他脑海中最重要的概念的单词说出来。例如“救火”,严谨的说法应该是:

可是他没有能力或者来不及 说出这样复杂的话,只好从中挑选两个最关键的词“救”与“火”来说。在大火 熊熊的现场, 尽管所用语序会使书呆子产生理解错误,但对一般人来说,这两个字的意思也就够了,不会引起误解。当然,在火柴还没有发明之前,人们看见珍贵的火种 快要熄灭而想挽救它时,“救火”就变成了完全符合现代汉语语法的“挽救火种”的含义了。

同样地,“恢复疲劳”是以下严谨说法:

的提示形式。

再拿由语言学界前辈赵元任先生首先提出,并在语言学界反复讨论过的例句:

来看。有人说,“吃”在这里是 被动态,如果在养鸡场说这句话,它就是主动态了。我认为,可以从另外一种观点来更自然地加以解释,即认为它实际上是说话的一种简化的提示形式,其简化过程可以设想如下:

尽管最后的句子违背常规语法,但却为使用汉语的人群所允许。

还有一个经常引起争论的例句是:

在这个句子中的“去”字到底是名词还是动词?

有一派说,“去”一般是动词,然而这里的“去”已经名词化了,因为只有体词才能充当主语。它已经相

抢救生命财产于火灾之中。 或者 从火灾中抢救生命财产。

恢复到疲劳以前的状态。

(在餐桌上) 鸡不吃了。

这鸡,我不想吃了。 鸡,我不吃了。 鸡,不吃了。 鸡不吃了。

去是对的。