简体中文繁體中文English
机器翻译未来十年也不敌人脑

 今天,功能日益强大的硬件和软件算法已经使计算机超越了国际象棋大师。[ 请回想一下,1997 年美国IBM公司的超级计算机“深蓝”战胜了国际象棋特级大师卡里·卡斯帕罗夫(Karry Kasparov)]。但总体说来,与人类的翻译能力相比,50多年来机器翻译能力却几乎没有长进,某些评论家甚至会认为这样的评价也过于慷慨。

  1954年,IBM公司和美国乔治城大学展示了60多个由机器完成的俄译英句子。1954年1月8日,关于IBM公司的新闻稿道出了人们的兴奋:“今天电子‘大脑’首次将俄语译成英语。” 国防机构和计算机科学家期望机器翻 译在五年之内成为寻常事,但这一愿望却从未实现。

  1966年,美国政府资助的语言自动处理咨询委员会(Automatic Language Processing Advisory Committee) 报告称,人工翻译速度更快,准确性更高,而费用仅为机器翻译的一半。该委员会的研究结论是:“无法马上 预测实用机器翻译的前景。”

  在随后的几十年中,研究资金匮乏,机器翻译取得的进展微乎其微。20 世纪60年代末期,美国空军为一家研制出机器翻译系统的小公司提供资助,其初衷是应对将俄文文献翻译成英文的巨大需求。该系统称之为 Systran——本文第一段就是它的互联 网版本“奉献”给我们的。

  像IBM公司最初的“大脑”系统一样, 国际商用机器Systran 以源语言 和目标语言规则为基础,它靠的是支 配句法、语义学等的六条基本规则。 例如,俄语中的“o”有可能被IBM 公司的701 型计算机翻译为“about” ( 关于),也可能被翻译成“of”(…的)。 如果“o”跟在“nauka”( 科学) 一词 的后面, 它就会寻找合适的规则把“o” 翻译成“of”,换言之就是翻译成“… 的科学”,而不是“关于…的科学”。

  位于巴黎的Systran 公司是世界上最大的机器翻译公司,客户甚至包括 Google、雅虎(Yahoo) 和时代华纳(Time Warner) 旗下的美国在线(AOL),2004年它的年度收入也只有区区1300 万美 元,而全球各类翻译的总市场规模估 计约为100 亿美元。“我们的公司如此之小,可我们又是最大的。”Systran 公司董事长兼总经理季米特里斯·沙巴塔卡基斯(Dimitris Sabatakakis) 说。

  对基于语言规则的翻译系统来 说,某些特定语言的语言学家和语言 专家必须不辞劳苦地编撰大型词典和与语法、句法、语义学有关的规则,以获得目标语言文本。对于由数十万词汇构成的词库,商务翻译系统包含的语法规则就高达数万条。

  IBM 公司,自20世纪80年代末 期开始研制将法语译成英语的翻译系统,这个系统被称为Candide,它既不需要语法知识,也不需要句法知识。 它避开语言规则,采用大量的已翻译 文本,对两种语言的单词进行匹配( 现 在更多的系统则是对整个短语进行匹 配), 最后, 根据贝斯定理(Bays’s theorem) 导出匹配概率,以评判一个 英文单词是否来自法语的正确翻译。

  另外一种单纯依赖大量文本的分 析方法,则是对被翻译成英文的那个 词与其周围单词在语法上是否搭配进 行评估。目标语言中搭配概率最大的 单词或短语,被用来为今后的文本进 行“译码”——这样就能将多个单词 联系起来,构成整篇文章。如果统计 方法表明,“pouderie”一词通常等同 于“blowing snow”( 吹雪),那么原则 上它就是译码所需要的。

  IBM 公司最后放弃了努力。在20世纪90年代末期,机器翻译一页文字要花一整天的时间。但是,随后事情开始有了转机。互联网使大部头 双语文本的数量迅速上涨。互联网也创造了人工永远无法满足的翻译需求 量。

  1999 年,美国国家科学基金会 (the National Science Foundation) 在美 国约翰霍普金斯大学举办了一个研讨 班,研究讨论构建能够被迅速推广 到科学界的软件工具箱,这是一个 引起人们关注并引发新活动的举动。 2002 年,该研讨班的组织者之一—— 美国南加州大学的凯文. 奈特(Kevin Knight) 和同校的丹尼尔. 马库(Daniel Marcu),创办了语言编织公司(Language Weaver), 这是唯一一家采用统计方法的机器翻译公司。它声称现在每分钟至少能够完成5000字的英语与阿拉 伯语、英语与波斯语、英语与法语和英语与汉语的双向翻译工作。

  另一位既是研讨班毕业生又是南加州大学毕业生的弗朗兹·奥克 (Franz Och), 受雇于Google公司。去年夏天,由奥克设计,尚处于实验阶段的Google系统,在美国国家标准与技术研究院组织的100 篇新闻专线文稿翻译( 将阿拉伯语或汉语译成英语)比赛中,击败全部竞争对手( 包 括IBM 公司),在所有类别上大获全胜。奥克提到,为机器翻译软件提供相当于100万部图书的文本是提高翻译质量的关键。他把Google 公司目前采用的汉译英机器翻译系统(Systran), 与由他和同事精心编写的基于统计分析的实验系统作了对比:

  “医生指出, 明智并且能抓住重点 的预先安排,能够使病人提早一个月康复。”

  Google 采用的Systran 机器翻译系统将这句话翻译为: “He noted that wise and able to seize the focus of pre-arranged, enabling the patient recovered a month earlier



  “医生说计划让阿吉西托(Akihito) 休息约一个月的时间。”

  Google 的学术搜索系统(Google Research) 把这句话翻译为:“Doctors said Akihito is scheduled to rest for about a month.”

  有关基于统计方法机器翻译的一 些传闻,已经迫使Systran 公司不得不站出来为自己的翻译系统辩护。沙巴塔卡基斯评论说:“学外语离不开 语法规则, 而学外语时并不学习统计方法。”Systran 公司开发翻译系统时, 只在一些非常狭窄的领域里使用统计 方法, 如翻译专利文献。但是,他认为目前的统计方法却有点市场营销的 味道。该公司仍然雇有50 名研发人员, 他们中有语言学家。“Systran 公 司和Google 公司间的主要分歧在于, Google 公司声称,由于统计方法的魔 力和完美,它不需要本土中国人开发 汉语( 应用程序)。”沙巴塔卡基斯说。 然后又补充道:“如果没有华裔研发人员, 我们的系统就可能存在大量错 误。”

  这两个阵营之间的界限已经开始模糊了,因为统计机器翻译的研究人员已开始对解释句子句法结构的方法兼收并蓄。这些方法不需要语言学家介入: 句法模型有可能估计出英文形容词与名词短语在翻译成法语之后被重新排序的概率。语言编织公司 (Language Weaver) 的奈特说,靠短语 而不是单词还可以使统计方法处理语义学问题,从而避免了,比如说,把他的姓翻译成“Caballero”( 西班牙语 的“绅士”)。

  美国微软研究院(Language Weaver) 有一个规模可观的自然语言团队, 在过去的六年里,他们也开展了机器翻译的研发工作。该团队最初集中研发 基于语言规则的翻译系统。但是它也 在逐步吸纳一些统计技术。最近,微 软公司在将其在线客户支持网址翻译 成12 种新语言( 包括俄语、阿拉伯 语和汉语) 时,就采用了一些统计方 法。翻译完成后也没有重新编辑这些 文本。“不可否认其中有些部分相当 粗糙;但其他部分相当不错。”自然 语言处理单元资深研究员史蒂夫. 理 查森(Steve Richardson) 说,“采用较多统计方法的系统,其翻译质量可与我 们以前使用基于语言规则类系统的翻 译质量媲美,甚至开始超过它们。”

  抓住要点

  然而, 所有这些技术都引出了这 样一个问题:机器翻译会像IBM 公 司研制的能下国际象棋的超级计算机 深蓝那样, 在人类自己的游戏中击败人类吗?难道机器就只能提供“要 点——外语文本的大意,不能再进一 步?”美国翻译协会发言人凯文. 汉 德塞尔(Kevin Hendzel) 说,目前的乐 观主义只是在宣扬几十年来言过其 实的断言——“全自动高质量翻译 (FAHQT)”思想。他说,要点能帮助 我们处理浩瀚的外语文本,但我们要 认识到其固有的不可靠性。即使粗糙 的翻译也有其危险性。为证明这一点, 他引用了一个阿拉伯语译为英语的例子,这个例子提到双方对“攻”,一 个“攻”字引起了安全官员的警觉。实际上,这里指的是一场足球比赛, 而不是恐怖分子袭击或即将发生的战 斗。

  美国斯坦福大学语言与信息研究中心执行董事基思·德夫林(Keith Devlin) 评论说,基于机器的翻译系统永远赶不上人类语言学家。“统计技术与高速处理器和高速存储器结合, 无疑会使翻译系统越来越好,因而其 翻译质量在许多情况下可能也勉强说 得过去。” 德夫林说,“但我的看法是, 人类专家的那种流畅翻译,机器是达不到的。”

  统计翻译的先驱者奈特不同意这 种说法,并指出机器翻译在这十年中 取得的进步。他认为机器翻译前途不 可限量, 并且最终将在各个方面达到 人类的翻译水平,也许只有诗歌是个例外。他在读者不知情的情况下把机器译文和人工译文同时摆在他们面 前,他们竟不能辨别。“我们不要自欺 欺人了——人工翻译的错误也很多。机器翻译中存在的问题并非我们想象的那样高不可攀。”他说。要证明翻 译工具不只是长期的促销宣传,以及目前引领机器翻译这一领域的统计技 术,必须证明全自动高质量翻译名副 其实。只有到那时,这种技术才会像微软公司的理查森所说的那样,不仅仅是“机器翻译承诺”。
 

Copyright ©1997 -2012 深圳市好博译翻译有限公司    备案号:粤ICP10223691