“视听关联”深度学习系统：嘿 Siri，帮我在合照中找到班花-德语教育网

编者按：本文由“图谱科技”编译自一个同时实现语音识别和物体识别的机器学习系统。

麻省理工学院的计算机科学家开发了一种新系统，可以根据图像的口头描述识别图像中相应的对象。仅通过图像和音频描述，模型就可以实时注释所描述的对象在图像中的相对位置。

与当前的语音识别技术不同，该模型不需要对其训练的示例进行手动转录或注释。相反，它直接从录制的音频剪辑中学习单词，从原始图像中学习对象，并将它们关联起来。

该模型目前只能识别几百个单词和几百种物体类型。然而，研究人员希望，未来这种结合了语音和物体识别的技术将节省大量的人工时间，并为语音和图像识别领域开辟新的可能性。

例如，Siri 和Google Voice 等语音识别系统需要转录数千小时的语音录音。根据这些数据，系统学习如何将特定的音频信号映射到单词。然而，当新术语出现时，这种方法就会失效，系统必须重新训练。

“我们希望以更自然的方式进行语音识别，利用人类可以使用但机器学习算法通常无法访问的其他信号和信息。我们的想法是，“它以类似于步行的方式进行语音识别汽车”，计算机科学与人工智能研究所(CSAIL) 和口语系统团队的研究员David Harwath 说道。 Harwath 与人合着了一篇描述该模型的论文，并在最近的欧洲计算机视觉会议上进行了展示。

在论文中，研究人员用一个金发碧眼的年轻女孩穿着蓝色连衣裙、背景是一座红色屋顶的白色灯塔的图像来测试模型。该模型学会了将图像中的像素区域与“女孩”、“金发”、“蓝眼睛”、“蓝色裙子”、“白色灯塔”和“红色屋顶”等词语相关联。当播放音频描述时，模型会突出显示图像中相应的对象以及音频描述。

一种有前景的应用是让模型学习在不同语言之间进行翻译，而不需要双语注释器。据估计，世界上大约有7000 种语言，但只有100 种语言拥有足够的转录数据用于语音识别。但想象一下这样的情况：两个使用不同语言的人正在描述同一个图像。在这种情况下，如果模型已经学习了与语言A 的图像中的对象相对应的音频信号和与语言B 的对象相对应的音频信号，则这两个信号被认为是这两个信号的翻译。可以假设。语言。

哈瓦斯说：“这个模型可能以类似巴别鱼的机制运作。” Babel Fish是一款虚构的动画“耳机”《银河系漫游指南》，可以为佩戴者翻译不同的语言。

巴别鱼

视听协会

这项研究扩展了Harwath、Glass 和Torralba 先前开发的模型，将音频与主题相关的图像组关联起来。在之前的研究中，我们将分类数据库中的场景图像放置到Mechanical Turk 众包平台上，并要求人们描述这些图像大约10 秒，就像他们在和孩子说话一样。最终，我们编译了超过200,000 组图像和音频字幕，分为数百个不同的场景类别，例如海滩、购物中心、街道和卧室。

然后，我们设计了一个由两个独立的卷积神经网络（CNN）组成的模型。一种用于图像处理，另一种用于频谱图，频谱图是随时间变化的音频信号的视觉表示。该模型的顶层计算两个神经网络的输出，并将音频模式映射到图像数据。

例如，研究人员将正确匹配的音频描述A 和图像A 输入到模型中。接下来，向模型提供不正确匹配的图像A 和随机音频字幕B。将数千个不正确的字幕与图像A 进行比较后，模型学习与图像A 相对应的音频信号，并将这些信号与音频字幕中的单词相关联。正如2016 年的一项研究所述，该模型学会了提取与“水”一词相对应的音频信号，并搜索包含水体的相应照片。

“但这并不能保证当有人说某个词指的是某个像素区域时，这就是他们的意思，”哈瓦斯说。

创建匹配映射

在这篇新论文中，研究人员优化了他们的模型，将特定的单词与特定的像素块相关联。研究人员在同一数据库中另外400,000 个图像标题对上对模型进行了训练。他们对1,000 个随机配对进行了测试。

在训练过程中，还为模型提供了正确和错误的图像和音频字幕。但这一次，分析图像的CNN 将其划分为由像素块组成的单元网格。分析音频的CNN 将声谱图分成多个片段，例如一秒片段，以捕获每个单词或两个单词。

通过正确的图像和音频描述对，模型将网格中的第一个单元格与第一个音频剪辑匹配，然后将同一单元格与第二个音频剪辑匹配，并匹配所有网格单元格和音频剪辑。重复此操作直至匹配。对于每个单元和音频片段，根据音频信号与对象的对应程度提供相似性分数。

然而，问题是模型在训练过程中无法访问音频和图像之间的实际校准信息。 “本文的最大贡献是，我们可以通过简单地训练神经网络来自动创建跨模式（例如音频和视频）的一致性，哪些图像字幕可以与哪些音频字幕配对，哪些字幕不能配对。我们已经证明了这一点可以根据”

作者将音频描述的波形图与图像像素块之间自动学习的关联称为“匹配图”。在对数千个图像标题对进行训练后，神经网络将这些数组缩小到代表匹配图中特定对象的特定单词。

哈沃斯说：“这类似于大爆炸，物质完全分散，然后合并成行星和恒星。” “我们从不同的预测开始，但随着训练的进展，它们会汇聚成代表口语和视觉对象之间有意义的语义基础的对。

给这篇文章的作者打赏

相关文章

戴维斯英文怎么写

收起的英文

jujube是什么？