华盛顿大学的研究人员已经开发出新的算法来解决计算机视觉领域的棘手挑战:将音频片段转换成讲述这些词的人的真实,口头同步的视频。
正如将于8月2日在SIGGRAPH 2017上发表的一篇论文中详细介绍的那样,该团队成功地制作了前总统巴拉克·奥巴马使用这些演讲的音频片段和现有的每周视频地址谈论恐怖主义,父亲身份,创造就业和其他主题的高度逼真的视频。最初是在另一个主题上。
“这些类型的结果以前从未出现过,”伊利诺斯大学保罗·艾伦计算机科学与工程学院的助理教授Ira Kemelmacher-Shlizerman说。“逼真的音频到视频转换具有实际的应用,例如改进会议的视频会议,以及通过仅通过音频创建视觉效果,能够与虚拟现实中的历史人物进行对话等未来主义应用。这就是突破将有助于实现下一步。“
在唇形同步的视觉形式中,系统将个人语音的音频文件转换为逼真的嘴形,然后将其嫁接到另一现有视频中并与该人的头部混合。
该团队之所以选择奥巴马,是因为机器学习技术需要有人可以学习的视频,并且在公共领域有数小时的总统视频。“在未来的视频中,像Skype或Messenger这样的聊天工具将使任何人都可以收集可用于训练计算机模型的视频,”Kemelmacher-Shlizerman说。
由于互联网上的流媒体音频占用的带宽远远少于视频,因此新系统有可能终止视频聊天,这些聊天会不断地从不良连接中超时。
“当你观看Skype或谷歌环聊时,通常情况下这种连接是低劣的,低分辨率的,真的很不愉快,但音频通常非常好,”共同作者和艾伦学校教授史蒂夫塞茨说。“因此,如果您能够使用音频制作更高质量的视频,那将是非常棒的。”
通过逆转过程 - 将视频输入网络而不仅仅是音频 - 团队还可以开发可以检测视频是真实的还是制造的算法。
新的机器学习工具在克服所谓的“神秘谷”问题方面取得了重大进展,该问题一直困扰着从音频创建逼真的视频。当合成的人类似乎几乎是真实的 - 但仍然设法以某种方式错过了标记 - 人们发现它们令人毛骨悚然或令人反感。
“人们对你看不太现实的任何区域特别敏感,”主要作者Supasorn Suwajanakorn说,他是艾伦学校最近的博士生。“如果你没有正确地拔牙或下巴在错误的时间移动,人们可以立即发现它并且看起来是假的。所以你必须完美地渲染嘴部区域以超越不可思议的山谷。”
以前,音频到视频转换过程涉及在工作室中拍摄多个人,一遍又一遍地说同样的句子以试图捕捉特定声音如何与不同的嘴形状相关联,这是昂贵,乏味和耗时的。相比之下,Suwajanakorn开发的算法可以从互联网或其他地方“野外”存在的视频中学习。
“有上百万小时的视频已经从访谈,视频聊天,电影,电视节目和其他来源的存在。而这些深层次的学习算法是数据非常饿了,所以这是一个很好的匹配做这种方式,” Suwajanakorn说。
该团队不是直接从音频合成最终视频,而是分两步解决问题。第一个涉及训练神经网络观看个人的视频并将不同的音频声音转换成基本的嘴形状。
通过将来自UW图形和图像实验室团队的先前研究与新口合成技术相结合,他们能够在现有的该人的参考视频上逼真地叠加和混合这些嘴形状和纹理。另一个关键的见解是允许一个小的时间转换,以使神经网络能够预测说话者下一步会说些什么。
新的唇形同步过程使研究人员能够使用他在电视谈话节目中或在几十年前的采访中所说的话,制作奥巴马在白宫发言的逼真视频。
目前,神经网络的设计目的是一次学习一个人,这意味着奥巴马的实际说话的话语是用来“驱动”合成视频的唯一信息。然而,未来的步骤包括帮助算法在各种情况下进行概括,以较少的数据识别人的语音和语音模式 - 例如,只需要一小时的视频来学习,而不是14小时。
“你不能只是把任何人的声音变成奥巴马的视频,”塞茨说。“我们非常有意识地决定不采取将别人的话语放入别人口中的道路。我们只是采取有人说话的真实话语,并将其转化为该人的真实视频。”