简体中文繁體中文English
计算语言学探索机器翻译之术

        2011年,IBM公司开发的沃森人工智能系统在美国著名综艺节目“危险边缘”中,一举击败最高奖金得主和连胜纪录保持者,获得100万美元的奖 金。这是继“深蓝”战胜国际象棋世界冠军之后,机器再次战胜人类的经典对决。今天,看似是属于未来的科技成果已经进入我们的日常生活。或正是因此,我国著 名计算语言学家冯志伟先生在《中国社会科学报》(2012年12月3日)上发出“大哉,计算语言学之为用!”的呼声,并指出当前是计算语言学快速发展、大 有用武之地的黄金时期。

  计算语言学在机器翻译、信息检索以及语音识别与合成等应用领域都取得了长足发展。这些成果离不开自然语言处理技术的支持,包括计算方法的更新、 计算技术的融合以及语言学知识的运用。在众多应用领域中,机器翻译是自然语言处理的风向标。它既是计算语言学的起点,也昭示其未来——机器能否思维的关键 就在于能否理解语言。

  1954年,美国乔治敦大学成功进行了世界上第一次机器翻译试验。随后,机器翻译进入最初的繁荣期,苏联、英国、日本等国家相继进行了相关试 验。但在1966年,美国科学院发布的题为《语言与机器》的报告(即ALPAC报告)指出,机器翻译遇到了难以克服的“语义障碍”。例如,“The box was in the pen”被翻译成“玩具盒在笔内”。实际上,“pen”在这句话中应该翻译为“栅栏”,而不是“笔”。这类典型的词义消歧问题是机器翻译当时面临的诸多难 题之一。受到ALPAC报告的影响,机器翻译在西方遇冷,进入萧条期。随着计算机能力的增强,机器翻译于1976年复苏,并逐渐进入高速发展期,从面向句 法、基于规则的机器翻译,发展到经验主义的基于语料库的机器翻译——包括基于实例的机器翻译和统计机器翻译。

  目前互联网上的多语言翻译系统主要采用统计机器翻译技术,如百度、谷歌和有道等。虽然统计方法具有无指导的学习能力以及良好的鲁棒性,但在长距 离调序能力和翻译逻辑性方面还有待改进。尤其在需要意译或模式化的翻译(如“把”字句)时,统计机器翻译结果的精确度不高。例如,“他们把粮食装上汽车” 这句话在谷歌在线翻译系统中被译为“They loaded grain cars”。译文没有揭示出“粮食”和“汽车”之间的关系,而是将其处理为修饰关系。实际上,“把”字句语义上强调“粮食”通过“他们”进行“装”的动作 而进入“汽车”的这一事件。正确的译文应该是“They have loaded the grain onto the cars”。显然,基于统计的方法无法给出“把”字句蕴含的句式意义,也就无法给出符合“信、达、雅”三要素的译文。对此,学者们提出了多种技术相融合的 方法,如将翻译记忆方法与统计翻译方法相结合,或者将规则方法融入到统计翻译系统中去,甚至采用以统计翻译为主,基于规则和实例翻译为辅的翻译策略。这当 然都离不开语言学知识的支持。

  仅就“把”字句而言,其语言学本体研究方面的成果颇丰。但在计算应用方面,单就“把”字句的分析并不多见,而且机器翻译等应用系统对“把”字句 的语义理解和翻译的正确率也不高。为了提高计算系统自动分析“把”字句的准确率,可采取一种基于认知假设并面向计算分析的技术路线,尝试将语言学的学理性 研究与计算方面的实证性分析结合起来,探索一种规则和统计相结合的“把”字句的自动释义和句式变换的方法。

  可依次从认知、逻辑、语言以及计算这四个方面来对“把”字句进行形式建模。首先,我们根据对“把”字句的形式类型、约束条件以及语义关系的总 结,构建出“把”字句在认知上的概念结构和事件结构及其逻辑表示。接着,我们通过变换关系来把握“把”字句内部从结构形式到语义解释上的差异。研究发现, 造成这些差异的原因在于每一小类“把”字句中谓语的次范畴特征与句式的意义之间特定的互动关系。基于对“把”字句中谓语成分的次范畴分析、句法框架特点以 及论旨角色配置等信息的描写,可构建出富含句法语义信息的“把”字句语言模型。最后,根据构建语言模型所用到的句法语义特征,对真实文本中的语料进行加 工,得到富含句法语义信息的标注文本作为机器学习的训练语料,并在此基础上,用组块分析的方法以及辨别式机器学习的方法来对“把”字句进行自动分类,进而 根据释义模板和变换模板得到“把”字句实例的自动释义以及相应的变换句式。期望这种本体研究与计算分析相结合的语言学探索,可以为本体研究提供一种基于经 验的新思路,而其成果也可用于机器翻译等自然语言处理任务中。

Copyright ©1997 -2012 深圳市好博译翻译有限公司    备案号:粤ICP10223691