您的位置  > 德语常识

德语翻译语音 基于对偶任务的机器学习任务形式出现的对偶性研究

许多机器学习任务都以原始对偶任务的形式出现,例如英德翻译和德英翻译、语音合成和语音识别、图像描述生成以及文本到图像生成。 对偶学习是一种新的学习范式,它利用两个任务之间的对偶性来提高两个任务的训练或测试性能。

01 简介

深度学习正在推动和引领人工智能(AI)浪潮。 随着深度学习的应用,人工智能在许多领域(如计算机视觉、语音合成、自然语言处理、游戏等)取得了突破。

深度学习的成功依赖于大量手动标记的数据。 如表1.1所示,使用数百万张标记图像来训练分类器; (虽然Zero和专家移动数据不用于训练,并且可以通过自我对弈来学习,但自我对弈仍然需要定期反馈信号,而这些通常在现实中是不可用的)而Suphx使用了数千万个专家移动或用于模型训练的卡片数据; 语音识别系统需要数千小时的语音数据进行训练; 机器翻译系统需要数千万个双语句子对进行训练。 此外,深度学习系统已被证明可以从更多数据中受益。 文献表明,用数百亿数据训练的神经机器翻译系统比用数千万语料库训练的系统要好。 在图像分类任务中也发现了类似的结论:用数十亿张标记图像训练的图像分类器明显优于用数百万数据训练的分类器。

表1.1 人类标记的训练数据的数量级。对于未明确命名的系统,统一用DNN(Deep)表示

不幸的是,为现实世界的任务获取专家注释的数据通常成本高昂。 更困难的是,在某些任务中,很难找到足够的专家来进行数据标注。 例如,对于翻译两种非常冷门语言的任务,可能没有能够同时理解两种语言的专家。 因此,虽然有些任务有足够的标记数据,但更多的任务很难获得足够的标记数据。 如图1.1所示,对于英语、德语、捷克语等流行语言之间的翻译,存在数千万个平行语料库。 相比之下,一些冷门语言(如古吉拉特语)翻译成英语的双语语料库不足20万个。

因此,如何减少对大规模标记训练数据的需求,更好地利用有限的标记数据是机器学习领域(尤其是深度学习领域)的热门研究方向。 研究人员提出了多种不同的学习范式,包括多任务学习、迁移学习等。

由于数字技术和互联网的快速发展,大量无标签数据很容易以低成本获得。 因此,在机器学习(尤其是深度学习)中,使用无标签数据自然是减少对人工标记数据依赖的解决方案,是一个新的研究趋势。 已经提出了许多使用未标记数据的机器学习方案,对偶学习是代表性方法之一。

图1.1 训练语料规模:WMT 2019 02 人工智能任务中的结构二元性提供的双语句子对数量

对偶学习是一种新的机器学习范式。 它最初被提出是为了利用未标记的数据,后来扩展到多个研究方向。

定义1.1

如果一个任务是从 X 空间到 Y 空间的映射,另一个任务是从 Y 空间到 X 空间的映射,则这两个机器学习任务具有对偶形式。 也可以说,这两项任务具有结构上的双重性。

事实上,许多机器学习任务都有双重形式。 例如:

定义1.2

如果两个任务具有对偶形式,我们称从X空间到Y空间的任务为原始任务或前向任务,相应的模型称为原始模型或前向模型; 从Y空间到X空间的任务称为对偶任务或逆向任务,相应的模型称为对偶模型或逆向模型。

03 双元学习的划分

尽管结构二元性在实际应用中广泛存在,但直到近年来才得到广泛、系统的探索和研究。

一般来说,对偶学习的基本思想是利用机器学习任务的对称结构(主对偶结构)来获得有效的反馈或规律的信号来强化学习或推理过程。

德语翻译语音 基于对偶任务的机器学习任务形式出现的对偶性研究

对偶学习的研究可以根据不同的标准进行分类。

1. 按使用数据细分

根据用于训练模型的数据,对偶学习可以分为以下几类:

结构对偶不仅可以应用于模型训练阶段,还可以应用于测试阶段,即对偶推理(dual)。

2、根据双信号建设标准

根据具体的应用场景,本书讨论了利用结构对偶性进行构建的几个原则。

它也可以以概率形式实现:

03 研究与应用

对偶学习在各种任务中得到了广泛的研究,包括机器翻译、图像翻译、语音合成、问答和问题生成、代码摘要和代码生成、图像分类和生成、文本摘要和情感分析。

为了对对偶学习研究进行一个粗略的总结,我们按照原理、学习背景和应用对对偶学习的代表性研究进行了划分,如图1.2所示。

图1.2 对偶学习研究的分类

尽管对偶学习已经在各种机器学习环境中进行了研究并应用于许多领域,但对偶学习仍有许多方向有待探索。

作者简介:秦涛,微软亚洲研究院首席研究员,深度学习与强化学习组负责人,IEEE和ACM高级会员,中国科学技术大学客座教授,研究方向为深度学习及其应用自然语言、语音、图像处理和药物开发、强化学习及其在游戏人工智能和实际问题中的应用、博弈论和多智能体系统及其在云计算和在线广告、信息检索和计算广告中的应用。

本文摘自《双学》,经出版社授权发布。

本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023