最新新闻
谷歌光纤部门裁员9% 暂停1个城市的光纤计划 谷歌光纤现在是一个光纤和无线ISP 在堪萨斯城 谷歌光纤结束了免费的5Mbps互联网服务 4K的谷歌视距可能会让你突破家庭互联网数据的上限 亚马逊在5G 混合IT领域加大竞争 一个可靠的VPN新来者 有一些不错的功能 OVPN审查一个可靠的执行者 有很好的隐私承诺 WireGuard协议对Mac用户来说很简单 讨厌macOS的屏幕截图吗 这里是如何摆脱它 iPhone 11 Pro即使在关闭选项时也能共享位置数据 敏捷云到底有什么用呢 年增长率70%怎么样 Bug赏金初创公司HackerOne在分析错误后遭到攻击 福克斯与AWS签署协议 升级电视制作和流媒体服务 思科推出5G Now产品组合 让合作伙伴在无线领域全速前进 阿里巴巴的YunOS超越了中国的iOS 但它到底是什么呢 我们不能阻止人工智能改变世界 但我们可以阻止机器人烹饪猫 人工智能能预测潜在的安全漏洞吗 广告是我们将为AI无处不在付出的代价吗 安卓创始人必备的手机将三星配件与iPhone设计融为一体 亚马逊Echo Show为Alexa不断增长的技能添加了视频通话功能 爱立信推出新的物联网加速器市场 旨在刺激大规模的物联网应用 特斯拉半电动卡车亮相 奔驰GLC F-CELL是绿色科技的和谐 吉普揭示越野车的概念复活节狩猎 汽车博览会梅赛德斯 奔驰确定参展阵容 日内瓦丰田C-HR紧凑型SUV泄露 奔驰g级40年的顽固遗产 雷克萨斯RX 450hL推出坐第三排 WELLBET详解奔驰旗下全新SUV车型GLB 丰田Yaris交付开始1000辆车找到
您的位置:首页 >资讯 > 科技 >

一个新的AI工具可以单独从音频文件创建逼真的视频

2019-05-11 10:47:42   来源:

华盛顿大学的研究人员已经开发出新的算法来解决计算机视觉领域的棘手挑战:将音频片段转换成讲述这些词的人的真实,口头同步的视频。

正如将于8月2日在SIGGRAPH 2017上发表的一篇论文中详细介绍的那样,该团队成功地制作了前总统巴拉克·奥巴马使用这些演讲的音频片段和现有的每周视频地址谈论恐怖主义,父亲身份,创造就业和其他主题的高度逼真的视频。最初是在另一个主题上。

“这些类型的结果以前从未出现过,”伊利诺斯大学保罗·艾伦计算机科学与工程学院的助理教授Ira Kemelmacher-Shlizerman说。“逼真的音频到视频转换具有实际的应用,例如改进会议的视频会议,以及通过仅通过音频创建视觉效果,能够与虚拟现实中的历史人物进行对话等未来主义应用。这就是突破将有助于实现下一步。“

在唇形同步的视觉形式中,系统将个人语音的音频文件转换为逼真的嘴形,然后将其嫁接到另一现有视频中并与该人的头部混合。

该团队之所以选择奥巴马,是因为机器学习技术需要有人可以学习的视频,并且在公共领域有数小时的总统视频。“在未来的视频中,像Skype或Messenger这样的聊天工具将使任何人都可以收集可用于训练计算机模型的视频,”Kemelmacher-Shlizerman说。

由于互联网上的流媒体音频占用的带宽远远少于视频,因此新系统有可能终止视频聊天,这些聊天会不断地从不良连接中超时。

“当你观看Skype或谷歌环聊时,通常情况下这种连接是低劣的,低分辨率的,真的很不愉快,但音频通常非常好,”共同作者和艾伦学校教授史蒂夫塞茨说。“因此,如果您能够使用音频制作更高质量的视频,那将是非常棒的。”

通过逆转过程 - 将视频输入网络而不仅仅是音频 - 团队还可以开发可以检测视频是真实的还是制造的算法。

新的机器学习工具在克服所谓的“神秘谷”问题方面取得了重大进展,该问题一直困扰着从音频创建逼真的视频。当合成的人类似乎几乎是真实的 - 但仍然设法以某种方式错过了标记 - 人们发现它们令人毛骨悚然或令人反感。

“人们对你看不太现实的任何区域特别敏感,”主要作者Supasorn Suwajanakorn说,他是艾伦学校最近的博士生。“如果你没有正确地拔牙或下巴在错误的时间移动,人们可以立即发现它并且看起来是假的。所以你必须完美地渲染嘴部区域以超越不可思议的山谷。”

以前,音频到视频转换过程涉及在工作室中拍摄多个人,一遍又一遍地说同样的句子以试图捕捉特定声音如何与不同的嘴形状相关联,这是昂贵,乏味和耗时的。相比之下,Suwajanakorn开发的算法可以从互联网或其他地方“野外”存在的视频中学习。

“有上百万小时的视频已经从访谈,视频聊天,电影,电视节目和其他来源的存在。而这些深层次的学习算法是数据非常饿了,所以这是一个很好的匹配做这种方式,” Suwajanakorn说。

该团队不是直接从音频合成最终视频,而是分两步解决问题。第一个涉及训练神经网络观看个人的视频并将不同的音频声音转换成基本的嘴形状。

通过将来自UW图形和图像实验室团队的先前研究与新口合成技术相结合,他们能够在现有的该人的参考视频上逼真地叠加和混合这些嘴形状和纹理。另一个关键的见解是允许一个小的时间转换,以使神经网络能够预测说话者下一步会说些什么。

新的唇形同步过程使研究人员能够使用他在电视谈话节目中或在几十年前的采访中所说的话,制作奥巴马在白宫发言的逼真视频。

目前,神经网络的设计目的是一次学习一个人,这意味着奥巴马的实际说话的话语是用来“驱动”合成视频的唯一信息。然而,未来的步骤包括帮助算法在各种情况下进行概括,以较少的数据识别人的语音和语音模式 - 例如,只需要一小时的视频来学习,而不是14小时。

“你不能只是把任何人的声音变成奥巴马的视频,”塞茨说。“我们非常有意识地决定不采取将别人的话语放入别人口中的道路。我们只是采取有人说话的真实话语,并将其转化为该人的真实视频。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。