机器翻译的详细发展历程：在线翻译演变-德语教育网

CSDN编辑友情提醒：完成这篇文章至少需要一周的精力，请提前收藏~~~

图片来自网络

一般来说，我打开翻译的次数是两倍。对我来说，即时翻译不再是“赛博朋克”的专属情节，它已经成为我们现实生活的一部分。很难想象，机器翻译的算法经过一个世纪的努力才得以实现，其间甚至有一半的时间我们都没有意识到这项技术的发展。

从搜索引擎到今天的语音控制微波炉，机器翻译是所有现代语言处理系统的基础。本文将介绍机器翻译的详细发展，以及在线翻译的演变过程和结构。

图片：PP机器翻译，根据描述绘制插图，遗憾的是没有照片流传

开幕

故事要从1933年说起。

前苏联科学家彼得向苏联科学院提交了论文《双语翻译中选择和打印文本的机器》。这个发明很简单，包括4种语言的卡片、一台打字机和一台老式胶片相机。

操作员从文本中取出第一个单词，找到相应的卡片，拍照，然后在打字机上键入形态形式，例如名词、复数、所有格等。这台打字机的按键构成了一个特征代码。然后使用胶带和相机胶卷创建单词和形态特征的逐帧组合。

尽管如此，这项发明还是被认为“无用”，就像前苏联的常态一样。花了20年时间才完成这项发明，直到他因心绞痛去世。直到 1956 年，两位前苏联科学家发现了他的专利，世界上才知道这台机器。

然后冷战爆发了。

1954年1月7日，在IBM纽约总部，-IBM实验启动。 IBM的701型计算机自动将60个俄语句子翻译成英语，这是历史上第一个机器翻译。

“一个不懂俄语的女孩在 IBM 卡上输入了一条俄语信息。‘计算机’以每秒 2.5 行的惊人速度在自动打印机上快速翻译出英文翻译。” - IBM 报告。

国际商业机器701

然而，这个自鸣得意的标题隐藏了一个小细节。它没有提到翻译中使用的例子是经过仔细选择和测试的，以消除任何歧义。这个系统实际上只不过是一本短语手册。然而加拿大、德国、法国，尤其是日本等国家都在争夺这个，大家都加入了机器翻译的竞争。

机器翻译的竞争

改进机器翻译的徒劳努力持续了 40 年。

1966年，美国自动处理咨询委员会（ALPAC）在一份著名报告中宣称，机器翻译成本高昂、不准确且无望。他们建议应更加关注词典开发，这导致美国开发者退出机器翻译竞赛近十年。

即便如此，科学家们通过不断的实验、研究和开发，奠定了现代自然语言处理的基础。今天所有的搜索引擎、垃圾邮件过滤器和个人助理的存在都归功于当年国家之间的竞争。

1. 基于规则的机器翻译

（规则-：RBMT）

基于规则的机器翻译的想法最早出现在20世纪70年代。根据对翻译人员工作的观察，科学家们试图驱动巨大且笨重的计算机来重复翻译行为。这些系统的组件包括：

这就对了。如果需要，系统还可以添加各种技术规则，例如名称、拼写纠正、单词音译等。

是 RBMT 系统最著名的例子。一眼就能感受到那个黄金时代的气息。

但它们也有一些细微差别和变体。

直接翻译

这种机器翻译是最直接的。它将文本分成单词，进行翻译，进行轻微的词法调整，并润色语法，使整个句子听起来像它应该的那样。多少个日日夜夜，训练有素的语言学家为每个单词写出规则。

输出是翻译后的句子。通常，翻译的句子听起来有点蹩脚。看来语言学家们白白浪费了时间。

现代语言系统不再使用这样的方法，因此语言学家可以松一口气了。

换算翻译法

这种翻译方法与直接翻译有很大不同，首先我们决定句子的语法结构，就像我们在学校学到的那样。然后我们调整句子的整体结构，而不是单词。这一步可以帮助我们得到一个非常合理的词序。至少在理论上是这样。

但在实践中，此类系统仍然依赖于逐字翻译和传统语言学家。一方面，它引入了简化的一般语法规则。但另一方面，与单个单词相比，词汇结构的数量大幅增加，导致翻译更加复杂。

中间语言法

此方法将源文本转换为全球统一的中间语言 ( ) 表示形式。这正是笛卡尔梦想的中间语言：一种遵守普遍规则、能够将翻译变成简单的“来回”任务的元语言。下一步，中间语言可以转换成任意目标语言，是不是很神奇？

由于两者都涉及变换，因此中间语言法常常与变换-翻译法系统相混淆。中介语方法的不同之处在于，语言规则是特定于每种语言和中介语的，与要翻译的语言对无关。这意味着我们可以将第三种语言添加到中间语言系统中，并且能够在所有三种语言之间进行翻译。但转换翻译方法却无法做到这一点。

这个理论听起来很完美，但现实并非如此。创建这样一种中间语言是极其困难的，甚至有很多科学家为之奋斗了一生。尽管没有成功，但他们的努力为我们带来了今天的形态、句法和语义表征水平。光是意义文本理论本身就需要花费很多钱！

中间语言方法迟早会回来，我们拭目以待吧。

正如你所看到的，所有的 RBMT 都是愚蠢而可怕的，所以我们只在特殊场合使用它们，比如天气预报翻译等。 RBMT 经常被引用的优点包括其精确的词法（没有单词歧义）、可重现的结果（所有译者得到相同的结果），以及调整特定主题的能力（例如教授经济学家编程术语）。

即使有人成功地创建了一个理想的 RBMT，并且语言学家用所有拼写规则强制执行它，我们也总会有一些例外：英语中的不规则动词、德语中的可分离前缀、俄语中的后缀，而且人们的使用方式也存在细微的差异。表达它。解决所有这些细微差别将需要付出巨大的人力。

也有同音异义的。同一个词在不同的上下文中具有不同的含义，这也会影响翻译的变化。看看下面这句话，可以理解为几个意思： I saw a man on a hill with ? 见一个男人；也可以翻译为：我通过望远镜看到一个人站在山上；另外saw还可以译为“看见”（动词）等。

语言并不是按照一套固定的规则发展的，尽管语言学家喜欢规则。过去 300 年来，语言在很大程度上受到侵略历史的影响。你如何向机器解释这一点？

40年的冷战未能帮助我们找到最终解决方案。

RBMT 已经死了。

2. 基于实例的机器翻译

（-：EBMT）

日本对机器翻译特别感兴趣。日本虽然没有冷战，但当时懂英语的日本人很少。这对于即将到来的全球化来说是一个大问题，因此日本人非常积极地寻找机器翻译的方法。

基于规则的英语到日语翻译非常复杂。日语的语法结构完全不同，所有单词都必须重新排列并添加新单词。 1984年，京都大学的长尾诚提出了“用准备好的短语代替重复翻译”的想法。

想象一下，如果您想翻译一个简单的句子：“I'm go to the .” 如果你已经翻译过另一个类似的句子：“I'm go to the”，你可以从字典中找到“”这个词。

所以你要做的就是找到两个句子之间的差异，然后翻译有差异的单词，但不要破坏句子的结构。例子越多，你的翻译就会越好。

我可以用同样的方法用另一种我完全不懂的语言写句子。

EBMT 的方法给世界各地的科学家带来了一线希望：事实证明，机器翻译可以通过向其提供现有翻译来实现，而无需花费数年时间建立规则和例外。这种方法虽然不是彻底的革命，但显然是向前迈出的一大步。仅仅 5 年后，革命性的发明就出现了——统计机器翻译。

3. 统计机器翻译系统

（：表面贴装技术）

20 世纪 90 年代初，IBM 研究院首次开发了机器翻译系统。它不理解总体规则和语言学，而是分析两种语言的相似文本并尝试理解模式。

这个想法很简单但很精彩。同一个句子被分成两种语言的单词，然后相互匹配。重复这个操作大约5亿次，统计每个单词的匹配结果，比如“Das Haus”这个单词被翻译成“房子”、“”、“”的次数。

如果大多数时候它被翻译为“house”，机器就会采用该翻译。请注意，我们没有设定任何规则，也没有使用任何词典，所有的结论都是机器根据统计和“如果每个人都这样翻译，那么我会这样翻译”的逻辑得出的。因此统计机器翻译诞生了。

这种方法比以前的方法更高效、更准确，而且不需要语言学家。使用的文本越多，翻译就越好。

图：统计翻译的内幕，会统计概率，还会逆向统计

但这种方法存在一个问题：机器如何或何时将单词“Das Haus”与单词“”关联起来？我们怎么知道这是正确的翻译？

答案是我们不知道。最初，机器假设单词“Das Haus”与翻译句子中的任何其他单词一样相关。接下来，当“”出现在其他句子中时，与单词“house”的关联度将+1。这就是大学机器学习中的经典任务：“词对齐算法”。

该机器需要数百万个两种语言的句子才能收集每个单词的相关统计数据。那么我们怎样才能得到这些数据呢？我们有欧洲议会和联合国安理会会议的截图（他们为所有成员国提供了语言翻译，您可以在这里下载：，）。

基于单词的 SMT

最初，第一个统计翻译系统将句子分段为单词，因为这种方法是最直观和合乎逻辑的。 IBM 的第一个统计翻译模型称为 Model 1。听起来很优雅，不是吗？猜猜他们会给第二个系统起什么名字？

：“词袋”

模型一采用最经典的方式：将句子分词，然后统计统计。不考虑单词的顺序。最棘手的问题是有时多个字符（或单词）可以翻译成一个（或多个单词）。例如，“to eat”可以翻译为“eat”，但这并不意味着反之亦然（“eat”只能翻译为“eat”）。

单击此处查看一些使用以下方法实现的简单示例：

：考虑句子中单词的顺序

模型1的问题是缺乏对词序的理解，在某些情况下这是一个非常重要的问题。

模型 2 解决了这个问题：它记住单词通常在输出句子中的位置，并在中间步骤中重新排列它们，使句子听起来更自然。事情正在好转，但最终的翻译仍然有点蹩脚。

：附加处理

有些词在翻译中出现的频率很高，例如德语中的冠词或英语否定句中的“do”。 “我愿意”→“我愿意”。为了处理这种情况，需要在模型 3 中添加两个额外的步骤。

: 单词对齐

模型 2 也考虑了单词的对齐，但不知道如何重新排序。例如，形容词经常需要与名词交换位置，无论它记住顺序有多好，都不会提高输出。因此，模型 4 引入了一些人所说的“相对顺序”，其中模型了解两个单词是否经常交换位置。

：错误修正

Model 5在功能上没有任何创新，只是增加了更多的学习参数，修复了词位冲突的问题。

虽然基于单词的系统彻底改变了机器翻译，但它们仍然无法处理大小写、性别和同音词。每个单词都由机器以一种合理的方式翻译。我们不再看到这样的系统，它们已被更先进的基于短语的方法所取代。

基于短语的 SMT

这种方法继承了基于单词的翻译的所有原则：统计、重新排序和词汇修改。然而，这种方法将文本分解为短语，而不是单词。该方法源自n-gram，即文本中连续出现的n个单词。

因此，机器学习可以翻译多个单词出现的稳定组合，从而大大提高翻译准确性。

这种方法的难点在于，并不是所有的短语都有如此简单的语法结构，如果懂语言学和句子结构的人干扰它，翻译的质量就会急剧下降。一位计算语言学大师开玩笑说：“每次我解雇一名语言学家，语音翻译器的表现都会提高。”

除了准确性的提升之外，这种基于短语的翻译也为双语文本的学习提供了更多的途径和手段。对于基于单词的翻译，元文本的精确匹配至关重要，因此排除任何文学或意译。基于短语的翻译不存在这样的问题。研究人员甚至尝试解析不同语言的新闻网站以改进翻译。

从2006年开始，大家都开始使用这个方法。截至2016年，翻译、（一家俄罗斯互联网公司，其搜索引擎在俄罗斯市场占有率超过60%）、Bing（微软推出的网络搜索引擎）等基于的高端在线翻译。有些人可能还记得曾经的译文有时是完美的句子翻译，有时又是蹩脚的翻译。根本没有意义的翻译来自基于短语的翻译。

旧的基于规则的方法始终提供可预测但可怕的结果。而且统计方法令人惊讶和神秘。译者毫不犹豫地将“三”译为“三百”。这称为统计偏差。

基于短语的翻译已经变得如此流行，以至于人们所说的“统计机器翻译”实际上指的是基于短语的翻译。直到 2016 年，所有研究都称赞基于短语的翻译是最先进的。但谁也没想到导火索已经点燃，准备改变我们对机器翻译的整个认识。

基于语法的 SMT

这个方法需要简单介绍一下。在神经网络出现之前的几年，基于语法的翻译被视为“机器翻译的未来”，但这个想法从未实现。

基于语法的翻译的支持者认为，可以尝试将其与基于规则的方法合并。需要对句子进行非常精确的语法分析——确定主语、谓语和其他部分，然后创建句子树结构。通过这种树形结构，机器可以学习在语言之间转换语法单元，并通过but和or短语翻译其余部分。这样就彻底解决了字对齐的问题。

图：Yu 的论文和幻灯片中摘录的示例

但问题是解析做得非常糟糕，尽管我们认为它很久以前就已经解决了（因为我们有很多开箱即用的语言库）。每次我尝试使用语法树来解决比解析主语和谓语更复杂的问题时，我都会失败。

4. 神经网络机器翻译

（：神经机器翻译）

2014 年有一篇非常有趣的 ( ) 论文，内容是关于使用神经网络进行机器翻译。这篇论文的发表根本没有被互联网圈注意到，除了。于是，他们继续继续挖掘。两年后，即 2016 年 11 月，一项颠覆性的公告发布了。

这种翻译方法类似于图片的风格迁移。还记得等待应用程序吗？他们可以将一幅画转变为著名艺术家的风格。这不是魔法。经过训练的神经网络可以识别艺术家的作品。然后，删除神经网络中的最后一个决策层。处理后的图像输出只是神经网络获得的中间图像。这就是这个网络的力量，这样处理出来的图片很漂亮。

既然我们可以对图像进行风格上的转换，那么如果我们尝试用另一种语言处理原始文本呢？原文相当于“艺术家的风格”，我们需要对其进行改造，同时保持画面的本质，即文字的本质。

例如，我这样描述我的狗——中等大小，尖鼻子，短尾巴，经常吠叫。如果我给你一些狗的特征并足够准确地描述它们，即使你从未见过我的狗，你也可以画它们。

现在，假设原始文本是一组特定的特征。基本上，您可以对其进行编码，然后让其他神经网络将其解码回文本，但使用另一种语言。解码器只知道自己的语言，它不知道原始特征，但可以用其他语言表达，例如西班牙语。仍然用画狗来比喻，不管你怎么画狗，无论你用蜡笔、水彩还是手指，你都可以用你喜欢的方式来画它。

再说一次：一个神经网络只负责将句子编码为一组特定的特征，而另一个神经网络将这些特征解码回文本。两个神经网络之间没有交流，它们只知道自己的语言。你熟悉吗？中间语言又回来了。鼓掌！

问题是，我们如何找到这些特征？狗的特征很明显，但是文字怎么办呢？ 30年前，科学家们试图创建国际语，但都失败了。

然而，现在我们有了深度学习。这就是它所擅长的。深度学习与传统神经网络的主要区别在于，深度学习可以在不知道特征属性的情况下搜索这些特定特征。如果神经网络足够大，配备数千个显卡，它就可以在文本中找到这些特征。

理论上，我们可以将从神经网络获得的特征发送给语言学家，让他们为自己开辟勇敢的新视野。

问题是，什么类型的神经网络可以用于编码和解码？卷积神经网络 (CNN) 非常适合图像处理，因为它们使用单独的像素块。

但文本中没有独立的块，每个单词都取决于上下文。文本、语音和音乐也是如此。因此，循环神经网络（RNN）是最好的选择，因为该网络可以记住以前的结果，在文本的情况下是以前的单词。

目前RNN广泛应用于各个地方，比如Siri的语音识别（它可以分析声音的顺序，下一首取决于上一首）、键盘提示（记住上一个输入，猜测下一个）、音乐一代，甚至聊天机器人。

对于像我一样的人来说：事实上，神经网络翻译的架构差异很大。

一开始大家都用普通的RNN，后来升级为双向RNN。这个机器翻译不仅考虑前一个单词，还考虑下一个单词。这样可以大大提高效率。接下来是一个带有 LSTM 单元的核心多层 RNN，用于长期存储翻译后的上下文。

最近两年，神经网络翻译已经超越了过去20年的所有翻译方法。神经网络翻译的词序错误减少了 50%，词汇错误减少了 17%，语法错误减少了 19%。神经网络甚至学会了调整不同语言的性别和大小写。而且没有人教他们这样做。

在直接翻译方法从未触及的领域，神经网络翻译带来了巨大的进步。统计机器翻译通常使用英语作为主要语言。因此，在将俄语翻译成德语时，机器首先需要将文本翻译成英语，然后再将英语翻译成德语，这样就会造成双重损失。

神经网络翻译不需要经过英文，只需要一个解码器。第一次可以在没有词典的语言之间进行翻译。

翻译（2016年起）

2016年，通过神经网络翻译提供了9种语言之间的翻译。他们开发的系统称为神经网络翻译系统（GNMT）。 RNN层包含8个编码器和解码器，并连接到解码器网络。

他们不仅划分句子，还划分单词。通过这种方式，他们解决了 NMT 的主要问题之一：稀有词。当字典中找不到诸如“Vas3k”之类的单词时，NMT 就会失败。我怀疑有人教过神经网络来翻译我的昵称。在这种情况下，GMNT 将要翻译的文本分割成单词并进行翻译。非常聪明，不是吗？

提示：在浏览器中进行网站翻译时，翻译仍然使用旧的基于短语的算法。不知何故，它没有升级，与在线翻译相比，差异相当明显。

在线翻译人员使用众包机制。用户可以选择他们认为最正确的版本，如果许多用户喜欢某个翻译，则该短语的翻译将被遵循并给予特殊标志。这对于日常短语非常有效，例如“Let's go to the”或“I'm”。英语说得比我好。

微软的必应在翻译方面也采取了同样的方法。但情况不同。

翻译（2017年起）

2017年发布了自己的神经网络翻译系统，据其介绍，主要功能是混杂。它将神经网络与统计方法结合起来进行句子翻译，然后用它最喜欢的算法选择最好的翻译结果。

原因是神经网络经常无法翻译短语，因为它们需要根据上下文选择正确的单词。再比如，如果一个单词在训练数据中出现的次数很少，那么它就很难翻译。在这些情况下，简单的统计翻译方法可以快速轻松地找到正确的单词。

没有分享任何技术细节。但它通过营销新闻稿吸引了我们：

翻译单词和短语时似乎使用了 SMT。他们在任何文章中都没有提到这一点，但当您仔细查看短语和长句子的翻译结果时，就会注意到这一点。而且，在显示词频统计时也使用了SMT。

总结与未来

大家对“巴别鱼”（雅虎提供的在线免费翻译软件，包括即时语音翻译）的想法很感兴趣。 Pixel Buds 已经向前迈出了一大步，但事实是，这仍然不足以实现我们一直梦想的翻译。即时语音翻译与普通翻译不同。你需要知道什么时候翻译，什么时候安静地听。我还没有看到这个问题的正确解决方案。除非 Skype 可以...

机器翻译还存在一个空白区域：所有的机器学习都仅限于一组并列的文本块，即源语言和目标语言之间，每个句子都需要对应。最深的神经网络仍然在并行文本上学习。没有资源，我们就无法训练神经网络。相反，人们可以通过阅读数据或文章来补充词汇量，甚至无需将单词翻译成母语。

理论上，如果人们能做到，神经网络也能做到。我发现了一个原型（），它试图鼓励已经掌握一种语言的神经网络阅读另一种语言的文本，以获得使用该语言的经验。我自己也想尝试一下，但我不够聪明。好吧，我们开始吧。

这个故事最初是用俄语写的，然后在推特上翻译成英语。他是我的笔友，他的文章应该广为流传。

参考链接：

原来的：

给这篇文章的作者打赏

相关文章

《新概念日语——语音入门与基础会话》初级篇

翻译机器 64|电子制作2018年11月信息工程

谷歌翻译中文版软件介绍