您的位置 首页 > 德语常识

巴别塔 在线播放,巴别鱼口语一点通下载

在科幻小说《银河系漫游指南》中,作者道格拉斯·亚当斯描述了神奇的太空生物——巴别鱼。巴别鱼以脑波能量为生,插入人耳后,可以瞬间理解任何语言的内容,并能与外星人交流。简单地。 2005年还上映了同名电影。

自小说诞生以来,“巴别鱼”就成为即时语音翻译的象征。但当时的人工翻译技术距离这个想法还很远,统一的语音到语音翻译模型还没有出现。近日,Meta利用AI ——将科幻电影《巴别鱼》变为现实,并推出了大规模多语言、多模态机器翻译模型—— SeamlessM4T。据介绍,SeamlessM4T可以实现语音和文本之间的即时翻译和转录,并支持以下五种功能:

自动语音识别约100 种语言,语音到文本翻译约100 种输入和输出语言,语音到语音翻译约100 种输入和35 种(加上英语)输出语言,约100 种语言文本到文本翻译,文本到语音翻译,支持大约100 种输入语言和35 种(加上英语)输出语言。

巴别塔 在线播放,巴别鱼口语一点通下载

为了构建这个模型,Meta 重新设计了Fairseq 序列建模工具包,以创建一个可以处理更多信息的更轻的模型。模型方面,Meta采用多任务UnitY模型架构,可以直接生成翻译后的文本和音频。这种新架构还支持自动语音识别、文本到文本、文本到语音、语音到文本和语音到语音翻译。这些已经是基本UnityY 模型的一部分。多任务UnitY 模型由三个主要的顺序组件组成:一个文本和语音编码器,可识别大约100 种语言的语音输入;然后,文本解码器将这种含义转换为近100 种语言的文本,然后使用文本到单元模型将其解码为36 种口语的单独声学单元。自监督编码器、语音到文本翻译组件、文本到文本翻译组件和文本到单元模型均经过预训练,以提高模型质量和训练稳定性。最后,解码后的各个单元通过多语言HiFi-GAN 单元声码器转换为音频。

研究人员使用自监督语音编码器w2v-BERT 2.0 分析了数百万小时的多语言语音,并学习如何查找语音中的结构和含义。该编码器获取音频信号,将其分解为更小的部分,并构建其内容的内部表示。口语单词由许多声音和字母组成,因此研究人员使用长度适配器将它们粗略地映射到真实单词。同样,Meta 利用基于NLLB 模型的文本编码器,该模型经过训练可以理解近100 种语言的文本并生成对翻译有用的表示。

Meta AI 于2022 年在一篇题为“No Language Left Behind: Scaling Human-Centered Machine Translation”的论文中提出了NLLB 模型。该模型是一个多语言机器翻译系统,支持200种语言。

经过训练的文本解码器可以接收编码的音频或文本表示。这可以应用于同语言任务,例如自动语音识别任务或多语言翻译任务。例如,如果有人用法语说“Bonjour”,您可以预期翻译文本是斯瓦希里语的“Havali”。通过多任务训练,Meta 利用NLLB 模型通过token 级知识蒸馏来指导语音到文本翻译模型。此外,Meta 使用声学单位来表示目标语音。 UnitY 模型的文本到单元(T2U) 组件根据文本输出生成这些单独的语音单元,并在UnitY 微调之前根据ASR 数据进行预训练。使用多语言HiFi-GAN 单元声码器将这些单独的单元转换为音频波形。这些功能使SeamlessM4T 能够识别说话者代码何时切换,或者单个句子中两种或多种语言的切换。此外,Meta还构建了——SONAR,一个可以覆盖200种语言的多语言多模态文本嵌入空间。然后,我们使用师生方法将其扩展到语音,涵盖36 种语言。通过挖掘网络和音频数据,我们自动协调了超过443,000 小时的音频和文本,创建了29,000 小时的音频对齐数据。这个语料库称为SeamlessAlign,是迄今为止发布的最大的语音、语音到语音和文本的并行语料库。评估结果显示,SeamlessM4T在近100种语言上取得了state-of-the-art的结果,并且能够进行自动语音识别、语音转文本、语音转语音、文本转语音和文本多任务处理。显示是支持的。 - 所有文本翻译均通过单个模型完成。此外,Meta 显着提高了低资源和中等资源语言的性能,同时保持了高资源语言的强大性能。为了更准确地评估系统并避免仅仅依赖基于文本的指标,Meta 将无文本指标扩展到BLASER 2.0。与之前的版本相比,这使得在语音和文本单元之间的评估具有相似的准确性。在鲁棒性测试中,与当前最先进的模型相比,该系统在语音转文本任务中针对背景噪声和说话人变化表现出了卓越的性能(平均分别提高了37% 和48%)。

确保翻译系统的准确性至关重要,Meta 使用负责任的AI 框架通过研究毒性和偏差等敏感问题来提高模型性能。我们还在语音中扩展了多语言毒性分类器,以过滤不平衡的毒性训练数据。此外,我们正在努力改进模型来评估性别偏见并减少毒性。该公司计划继续努力提高安全性和可靠性。 SeamlessM4T 就像AI 版本的Babel Fish,但我们不需要听到它。作者:杨一米编辑:学术君

本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023