您的位置 首页 > 德语常识

“视听关联”深度学习系统:嘿 Siri,帮我在合照中找到班花

编者按:本文由“图谱科技”编译自一个同时实现语音识别和物体识别的机器学习系统。

麻省理工学院的计算机科学家开发了一种新系统,可以根据图像的口头描述识别图像中相应的对象。仅通过图像和音频描述,模型就可以实时注释所描述的对象在图像中的相对位置。

与当前的语音识别技术不同,该模型不需要对其训练的示例进行手动转录或注释。相反,它直接从录制的音频剪辑中学习单词,从原始图像中学习对象,并将它们关联起来。

“视听关联”深度学习系统:嘿 Siri,帮我在合照中找到班花

该模型目前只能识别几百个单词和几百种物体类型。然而,研究人员希望,未来这种结合了语音和物体识别的技术将节省大量的人工时间,并为语音和图像识别领域开辟新的可能性。

例如,Siri 和Google Voice 等语音识别系统需要转录数千小时的语音录音。根据这些数据,系统学习如何将特定的音频信号映射到单词。然而,当新术语出现时,这种方法就会失效,系统必须重新训练。

“我们希望以更自然的方式进行语音识别,利用人类可以使用但机器学习算法通常无法访问的其他信号和信息。我们的想法是,“它以类似于步行的方式进行语音识别汽车”,计算机科学与人工智能研究所(CSAIL) 和口语系统团队的研究员David Harwath 说道。 Harwath 与人合着了一篇描述该模型的论文,并在最近的欧洲计算机视觉会议上进行了展示。

在论文中,研究人员用一个金发碧眼的年轻女孩穿着蓝色连衣裙、背景是一座红色屋顶的白色灯塔的图像来测试模型。该模型学会了将图像中的像素区域与“女孩”、“金发”、“蓝眼睛”、“蓝色裙子”、“白色灯塔”和“红色屋顶”等词语相关联。当播放音频描述时,模型会突出显示图像中相应的对象以及音频描述。

一种有前景的应用是让模型学习在不同语言之间进行翻译,而不需要双语注释器。据估计,世界上大约有7000 种语言,但只有100 种语言拥有足够的转录数据用于语音识别。但想象一下这样的情况:两个使用不同语言的人正在描述同一个图像。在这种情况下,如果模型已经学习了与语言A 的图像中的对象相对应的音频信号和与语言B 的对象相对应的音频信号,则这两个信号被认为是这两个信号的翻译。可以假设。语言。

哈瓦斯说:“这个模型可能以类似巴别鱼的机制运作。” Babel Fish是一款虚构的动画“耳机”《银河系漫游指南》,可以为佩戴者翻译不同的语言。

巴别鱼

视听协会

这项研究扩展了Harwath、Glass 和Torralba 先前开发的模型,将音频与主题相关的图像组关联起来。在之前的研究中,我们将分类数据库中的场景图像放置到Mechanical Turk 众包平台上,并要求人们描述这些图像大约10 秒,就像他们在和孩子说话一样。最终,我们编译了超过200,000 组图像和音频字幕,分为数百个不同的场景类别,例如海滩、购物中心、街道和卧室。

然后,我们设计了一个由两个独立的卷积神经网络(CNN)组成的模型。一种用于图像处理,另一种用于频谱图,频谱图是随时间变化的音频信号的视觉表示。该模型的顶层计算两个神经网络的输出,并将音频模式映射到图像数据。

例如,研究人员将正确匹配的音频描述A 和图像A 输入到模型中。接下来,向模型提供不正确匹配的图像A 和随机音频字幕B。将数千个不正确的字幕与图像A 进行比较后,模型学习与图像A 相对应的音频信号,并将这些信号与音频字幕中的单词相关联。正如2016 年的一项研究所述,该模型学会了提取与“水”一词相对应的音频信号,并搜索包含水体的相应照片。

“但这并不能保证当有人说某个词指的是某个像素区域时,这就是他们的意思,”哈瓦斯说。

创建匹配映射

在这篇新论文中,研究人员优化了他们的模型,将特定的单词与特定的像素块相关联。研究人员在同一数据库中另外400,000 个图像标题对上对模型进行了训练。他们对1,000 个随机配对进行了测试。

在训练过程中,还为模型提供了正确和错误的图像和音频字幕。但这一次,分析图像的CNN 将其划分为由像素块组成的单元网格。分析音频的CNN 将声谱图分成多个片段,例如一秒片段,以捕获每个单词或两个单词。

通过正确的图像和音频描述对,模型将网格中的第一个单元格与第一个音频剪辑匹配,然后将同一单元格与第二个音频剪辑匹配,并匹配所有网格单元格和音频剪辑。重复此操作直至匹配。对于每个单元和音频片段,根据音频信号与对象的对应程度提供相似性分数。

然而,问题是模型在训练过程中无法访问音频和图像之间的实际校准信息。 “本文的最大贡献是,我们可以通过简单地训练神经网络来自动创建跨模式(例如音频和视频)的一致性,哪些图像字幕可以与哪些音频字幕配对,哪些字幕不能配对。我们已经证明了这一点可以根据”

作者将音频描述的波形图与图像像素块之间自动学习的关联称为“匹配图”。在对数千个图像标题对进行训练后,神经网络将这些数组缩小到代表匹配图中特定对象的特定单词。

哈沃斯说:“这类似于大爆炸,物质完全分散,然后合并成行星和恒星。” “我们从不同的预测开始,但随着训练的进展,它们会汇聚成代表口语和视觉对象之间有意义的语义基础的对。

本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023

t>