浅谈机器翻译的两种工作原理

发布时间：2020-08-13 16:51:09 作者：数据星河
来源：ITPUB博客阅读：500

机器翻译（MT）即是自动翻译，是使用计算机软件将文本从一种自然语言翻译成另一种语言的过程。

浅谈机器翻译的两种工作原理

无论是人工翻译还是机器翻译，必须在目标语言即翻译中完全恢复源语言中文本的含义。虽然从表面上看这似乎很简单，但实际要复杂得多。翻译不仅仅是逐字替换，翻译人员必须解释和分析文本中的所有元素，并了解单词之间的关系。这需要在源语言和目标语言中具备语法（句子结构）、语义（含义）等方面的广泛专业知识，以及对每个语言区域十分熟悉。

人工翻译，机器翻译各具挑战。例如，任何两个独立的翻译者对同一语言的相同文本，并不能生成一致的翻译，翻译完后可能需要几轮修订才能满足客户。显然，机器翻译更难生产出让客户满意度高的高质量翻译。

基于规则的机器翻译技术

基于规则的机器翻译依赖于无数的内置语言规则，及每对语言的数百万双语词汇。

这种技术解析文本，并创建一种过渡表达，从中生成目标语言中的文本。这个过程需要广泛的词义，包括形态、句法和语义信息以及大量规则。该技术使用这些复杂的语法集，然后将源语言的语法结构转换为目标语言。

浅谈机器翻译的两种工作原理

“曲线救国“的基于规则MT⬆

翻译建立在巨大的词汇量和复杂的语法规则之上。用户可以通过在翻译过程中添加术语来提高翻译质量。用户可以自定义词汇量，覆盖系统的默认设置。

大多数情况下有两个步骤：公司初始投资以有限的成本显著提高质量，持续投资以逐步提高质量。虽然基于规则的MT使公司达到质量门槛以及更高，但质量改进过程可能是漫长且昂贵的。

统计机器翻译技术

统计机器翻译利用统计翻译模型，其参数源于对单语和双语语料库的分析。构建统计翻译模型是一个快速的过程，但该技术在很大程度上依赖于现有的多语言语料库。特定语言至少需要200万个单词，一般语言需要更多。从理论上讲，有可能达到质量门槛，但大多数公司没有如此大量的现有多语言语料库来构建必要的翻译模型。此外，统计机器转换是CPU密集型的，并且需要广泛的硬件配置来运行平均性能级别的转换模型。

基于规则MT与统计MT对比

基于规则的MT提供了良好的域外质量，并且本质上是可预测的。可定制词汇确保了提高质量并符合公司术语。但翻译结果可能缺乏读者期望的流畅性。在成本方面，达到质量阈值所需的定制周期可能很长且成本高。

浅谈机器翻译的两种工作原理

统计MT在大型语料库可用时能提供良好的质量。翻译流畅，易读性高，因此符合用户的期望。但是，翻译既不可预测也很难前后一致。优秀语料库是自动生成且便宜的。但是对一般语言语料库的培训，即指定域以外的文本，效果堪忧。此外，统计MT需要大量硬件来构建和管理大型翻译模型。

本文转载自数据星河平台：https://www.bdgstore.com.cn/portal/article/index/id/167.html

浅谈机器翻译的两种工作原理

相关阅读