翻译英语句子有什么技巧，翻译单词句子-德语教育网

本文介绍了南京大学和爱丁堡大学联合完成的IJCAI-2020论文《Towards Making the Most of Context in Neural Machine Translation》。

作者| 郑在相

编辑| 丛沫

论文地址：https://arxiv.org/pdf/2002.07982.pdf

研究动机目前，主流的神经机器翻译（NMT）模型通常是句子级别的，并且通常以单个句子为单位进行翻译。然而，在现实世界中，我们通常期望机器翻译能够一致地翻译文章的整个文本，而句子级模型显然不能提供句子之间的足够信息以及文章中的整体上下文信息。不能被考虑在内。例如，文章主题往往无法用句子级模型进行建模，导致文本翻译结果不一致。因此，我们需要一个可以直接翻译整篇文章的模型，而不是仅仅翻译单个句子。

结果是上下文感知的NMT 模型。

如上图所示，上下文感知模型中的编码器将源的全局上下文信息（Global Context）深度融入到编码当前句子的局部上下文（Local Context）的每一层中。解码器层也有类似的模块，融合当前句子的全局和局部上下文信息。因此，上下文感知模型在翻译特定句子时使用的当前句子表示深度集成了全局和局部上下文信息，从而产生上下文一致的翻译。

我需要翻译这一章，因为我知道这一章里应该有很多有用的信息。然而，与当前句子不太相关的信息占据了较大的比例，从而产生了噪音。此外，输入的上下文越多，信噪比变得越小。因此，在上下文感知模型（将上下文信息深度集成到当前句子的表示中的建模技术）中，此类模型变得无法有效工作，因为模型对文本上下文中的噪声变得非常敏感。避免上下文中噪音的影响，并减少有用章节信息的有效使用。这可以解释之前研究中发现的现象。这意味着上下文感知模型仅对当前句子周围的几个句子的上下文有帮助；任何进一步的上下文，甚至整个文档，都会降低翻译的质量。翻译。

同时，我们发现此类模型的输入除了当前源句子之外还应该包括上下文句子。因此，这种模型无法直接翻译单个句子，因为它只需要单个句子作为输入。如果一个句子不符合输入要求，强行翻译会产生不好的结果。这就导致，在实际部署模型时，我们需要分别部署句子级和章节级模型，成本太高，但另一方面，这也符合直觉。可以翻译一章的模型无法很好地翻译单个句子。

当然，本文的动机如下。我们需要一个统一的模型，能够尽可能地利用文本的上下文信息，并且能够处理任意长度的文本，无论文本是单个句子还是由多个句子组成。

解决方案为了解决上述问题，本文提出了一种通用的神经机器翻译模型。

我们的中心思想是避免将上下文信息直接深度集成到当前句子中，而是模型以分层的方式集成了章节内每个句子的局部和全局上下文信息的使用。这意味着你需要能够实现更好的平衡。

形式上，我们模型的输入是包含n 个句子的文本X。在编码阶段，1）模型的编码器部分首先对每个句子独立进行局部编码，得到每个句子的局部上下文信息（local context）；这一步与原来的句子级Transformer模型中相同，用于预先检查每个句子的编码是否不受上下文信息中的噪声影响。 2）模型在获得每个句子的局部上下文编码后，对文章中的这些句子进行全局编码，对句子之间的相对关系进行建模，为当前句子提供有用的全局上下文信息（global context）。 3）最后，编码器通过门控机制动态地、有意地组合当前句子的局部和全局上下文表示。

在解码阶段，模型逐句解码。 1）解码第k个句子时，将之前解码的历史句子作为全局上下文信息缓存在目标端。 2）其次，它允许解码器的自注意力模块不仅可以访问当前句子，还可以访问历史信息以获得有用的目标端上下文信息。 3）下一个交叉注意力模块仅对源中对应的第k个句子的编码结果表示进行交叉注意力，以获得与当前句子相关的源上下文信息。 4）最后根据以上信息进行预测。

通过分层剥离局部和全局上下文的处理并延迟它们的融合，我们减少了上下文中的噪声对建模的影响，最终让模型获得了更好的结果，你可以看到是有的。进一步来说，如果输入只有一句话，Encoder 的全局编码部分相当于自动退化为局部编码，让模型无需依赖额外的上下文即可完成单个句子的翻译。

关于模型的细节，编码器主要依次执行几个功能：对单词和位置进行编码、对句子的局部上下文信息进行编码（局部编码）、对章节的全局上下文信息进行编码（全局编码）。在其中，我们针对章节的整个上下文信息编码部分提出了块级相对注意机制（段级相对注意）。 Decoder 利用Transformer-XL 的缓存机制，可以将先前句子的隐藏层表示存储为历史信息，从而允许Decoder 的自注意力模块同时访问缓存中的当前句子和表示信息。时间。

实验我们使用汉语-英语和英语-德语两种语言对的四个常用章节翻译评估数据集进行了实验。其中，中文和英文我们使用容量较小的模型，英文和德文使用Transformer-base。为了提高学习效率，将章节分为20句单元，并将所得段落作为20句组作为处理单元。此外，我们没有使用大规模句子级双语数据进行预训练。

从下表中我们可以看到，该模型目前在章节翻译的两个数据集上都取得了最好的性能，而且在其他两个数据集上没有达到最好的性能，与最好的模型具有非常接近的性能。

从下表中我们可以看到，我们的模型还可以高质量地处理简单文本的翻译，而以前的方法在这种情况下并没有给出令人满意的性能。

我们在下表中列出了消融研究。我们发现源端和目标端的上下文信息都有助于翻译章节，而添加的模块对性能改进做出了合理的贡献。

下图显示了翻译性能与输入章节长度之间的关系。总的来说，我们第一次发现使用的上下文越多，模型翻译得越好。这一发现在某种程度上与之前的相关研究相矛盾，该研究得出的结论是，增加背景会对绩效产生负面影响。我们相信，上下文越多，翻译效果就越符合直觉。我们认为，这种效果与我们在建模过程中避免局部和全局上下文信息的深度融合，而是使用分层建模有关。我们的解决方案有效地避免了外部噪声对机器翻译建模的影响。

下表中，我们尝试使用大型句子级双语语料库进行预训练，然后在章节级语料库上进行迁移学习。我们发现，在大型句子级语料库上进行预训练可以显着提高翻译效率，使我们的模型能够在此数据集上实现迄今为止的最佳性能。虽然我们认为句子级预训练非常有用，但这也表明章节级翻译仍然缺乏足够的语料库。

为了检查模型对上下文建模的能力，下图使用编码器的全局上下文编码部分的注意力权重来可视化句子之间的依赖关系。得出了以下有趣的发现。

左边的蓝色框表示所有句子都“认为”文章的前两句很重要。这可能是因为文档的第一句话通常建立了文章的主题信息。

两条对角线的权重较高，表明与当前句子相邻和后面的句子很重要。

主对角线上的权重非常低，表明全局编码自动学习每个句子应该关注其他句子而不是它自己。

第6句看起来很重要，因为它包含了文本的重要内容

在下表中，我们还检查了我们的模型对话语连贯性和连贯性的建模。我们发现我们的模型在一定程度上提高了翻译话语的一致性。

四

总结在本文中，我们提出了一个统一的模型，可以在尽可能利用话语上下文信息的同时处理任意长文本。我们发现为模型提供的上下文越多，翻译就越好。我们认为，要实现高质量的章节翻译，应特别注意长章节中不必要的噪声，以避免不必要的信息影响神经机器翻译模型表示的建模。

招聘

AI技术评论正在寻找一名技术编辑/记者

办公地点：北京/深圳

职位：主要关注学术热点追踪、人物专访。

职位描述：

1、关注学术领域重大事件并及时跟踪报道。

2.采访人工智能领域的学者和研发人员。

3、参加人工智能相关的各类学术会议并报告会议内容。

我需要：

1.喜欢人工智能相关的学术研究，善于与学者和企业工程师互动。

2、最好有理工科背景，对人工智能技术有一定了解。

3、英语水平较高（工作涉及大量英文教材）。

4、具有较高的学习能力，对前沿的人工智能技术有一定的了解，并能逐渐形成自己的见解。

如有兴趣，请将简历发送至以下邮箱：jianbaoshang@yanxishe.com

观点

给这篇文章的作者打赏

相关文章

数百英文怎么写

胖胖的女孩唱歌，歌曲胖女孩

johnson什么意思（解释）？