研究人员Ghose和Prevost创建了一种深度学习算法,该算法在给定无声视频的情况下可以生成逼真的声音同步音轨。
通常,电影添加了在录制后未录制的声音效果,从而使它在称为“ Foley”的过程中更加逼真。德克萨斯大学的研究人员求助于深度学习以使这一过程自动化。他们针对12个热门电影事件训练了神经网络,在这些事件中导演经常添加Foley效果。他们的神经网络对要生成的声音的类别进行分类,并且还具有生成声音的顺序网络。因此,他们使用神经网络从时间对齐的图像过渡到声音的生成,这是一种完全不同的方式!
研究人员所做的第一件事是创建一个数据集(自动Foley数据集),该数据集包含具有12个电影事件的短片。对于某些电影事件,他们自己在工作室内部产生声音(例如剪切,足迹和时钟声音)。对于其他事件(例如枪声,奔马和开火),他们从YouTube下载了带有声音的视频片段。他们录制了1000部视频,平均时长为5秒。
下一步是预测正确的声音类别。为此,他们比较了两种方法:帧序列网络(FSLSTM)和帧关系网络(TRN)。在帧序列网络方法中,他们获取每个视频帧。然后,它们会在视频中的现有帧之间插入帧,以实现更高的粒度。ResNet-50卷积神经网络(CNN)提取图像特征。然后,使用称为Fast-Slow LSTM的递归神经网络并结合图像特征来预测声音类别。在框架关系网络中,他们试图以较少的计算时间捕获对象的详细变换和动作。框架关系网络(或更准确地说,多尺度时间关系网络)比较相距N个距离的框架中的特征,其中N取多个值。
最后一步是为此类产生声音。为此,研究人员使用了逆短时傅立叶逆变换方法。对于这种方法,他们首先确定训练集中每个声音类别的所有声谱图的平均值。这样,他们就可以很好地(平均)开始生成声音。然后,神经网络仅需针对声音的每个采样步骤预测到该平均声音锚点的增量。