最新新闻
起亚电动SUV EV9升级,动力与软件得到全面提升 上汽大众新款SUV途岳正式上市,售价15.86-21.66万元 福特领衔投资45亿美元,将在印尼建立镍加工厂 主机厂召开座谈会,探讨国六B切换情况 特斯拉在墨西哥大举投资,助力其成为电动汽车大国 特斯拉推出版Giga啤酒,啤迷大喜过望 西安特斯拉中心车间揭秘,让你近距离了解制造 宝马、特斯拉等豪掷重金,墨西哥将成电动车大国 本田雅阁e:HEV亮相:能否成为雅阁救世主? 特斯拉中国首次败诉,需退一赔三 AI伦理员工大量裁减引发业界担忧,微软、谷歌等科技巨头被指责 AI过于强大,人类面临危险?马斯克、图灵奖得主呼吁暂停GPT-4模型后续研发 微软早期阶段将广告植入GPT-4版必应搜索 故意毁灭证据:美法庭对谷歌Play商店垄断诉讼开出罚单 元宇宙仍是未来,但实现需要时间——Meta重申在计算领域的地位 AI老板发出警告:无法解释的推理能力可能导致人类灭亡 监管机构开始对特斯拉Model X的问题展开调查 追溯OpenAI的历史,揭示其与马斯克的众多纷争 GitHub裁员,印度团队成最大受害者 微软与OpenAI强力结盟,共同致力于网络安全领域 AI视频素材来源不明,百度文心一言创作者面临版权风暴 OpenAI神秘CTO只有35岁,是ChatGPT之母 马斯克脑机接口公司开始寻找合作伙伴 推进人体试验 芝麻信用黑灰产生意:购买会员、薅羊毛可轻松提升信用分 比尔盖茨遭马斯克批评 AI 理解有限 AI越来越智能,你的工作还能保住吗?现实不容忽视 微软研究惊艳科学界:GPT-4能力接近人类,AI朝“天网”迈进? 推特泄露部分源代码,GitHub受命删除,安全问题引人担忧 谁在制造泰国游客流失的恐慌?真相揭秘 为何马斯克和OpenAI撕破脸了?马斯克为何实际控制被拒?
您的位置:首页 >资讯 > 科技 >

一个新的AI工具可以单独从音频文件创建逼真的视频

2019-05-11 10:47:42   来源:
导读 华盛顿大学的研究人员已经开发出新的算法来解决计算机视觉领域的棘手挑战:将音频片段转换成讲述这些词的人的真实,口头同步的视频。正如将

华盛顿大学的研究人员已经开发出新的算法来解决计算机视觉领域的棘手挑战:将音频片段转换成讲述这些词的人的真实,口头同步的视频。

正如将于8月2日在SIGGRAPH 2017上发表的一篇论文中详细介绍的那样,该团队成功地制作了前总统巴拉克·奥巴马使用这些演讲的音频片段和现有的每周视频地址谈论恐怖主义,父亲身份,创造就业和其他主题的高度逼真的视频。最初是在另一个主题上。

“这些类型的结果以前从未出现过,”伊利诺斯大学保罗·艾伦计算机科学与工程学院的助理教授Ira Kemelmacher-Shlizerman说。“逼真的音频到视频转换具有实际的应用,例如改进会议的视频会议,以及通过仅通过音频创建视觉效果,能够与虚拟现实中的历史人物进行对话等未来主义应用。这就是突破将有助于实现下一步。“

在唇形同步的视觉形式中,系统将个人语音的音频文件转换为逼真的嘴形,然后将其嫁接到另一现有视频中并与该人的头部混合。

该团队之所以选择奥巴马,是因为机器学习技术需要有人可以学习的视频,并且在公共领域有数小时的总统视频。“在未来的视频中,像Skype或Messenger这样的聊天工具将使任何人都可以收集可用于训练计算机模型的视频,”Kemelmacher-Shlizerman说。

由于互联网上的流媒体音频占用的带宽远远少于视频,因此新系统有可能终止视频聊天,这些聊天会不断地从不良连接中超时。

“当你观看Skype或谷歌环聊时,通常情况下这种连接是低劣的,低分辨率的,真的很不愉快,但音频通常非常好,”共同作者和艾伦学校教授史蒂夫塞茨说。“因此,如果您能够使用音频制作更高质量的视频,那将是非常棒的。”

通过逆转过程 - 将视频输入网络而不仅仅是音频 - 团队还可以开发可以检测视频是真实的还是制造的算法。

新的机器学习工具在克服所谓的“神秘谷”问题方面取得了重大进展,该问题一直困扰着从音频创建逼真的视频。当合成的人类似乎几乎是真实的 - 但仍然设法以某种方式错过了标记 - 人们发现它们令人毛骨悚然或令人反感。

“人们对你看不太现实的任何区域特别敏感,”主要作者Supasorn Suwajanakorn说,他是艾伦学校最近的博士生。“如果你没有正确地拔牙或下巴在错误的时间移动,人们可以立即发现它并且看起来是假的。所以你必须完美地渲染嘴部区域以超越不可思议的山谷。”

以前,音频到视频转换过程涉及在工作室中拍摄多个人,一遍又一遍地说同样的句子以试图捕捉特定声音如何与不同的嘴形状相关联,这是昂贵,乏味和耗时的。相比之下,Suwajanakorn开发的算法可以从互联网或其他地方“野外”存在的视频中学习。

“有上百万小时的视频已经从访谈,视频聊天,电影,电视节目和其他来源的存在。而这些深层次的学习算法是数据非常饿了,所以这是一个很好的匹配做这种方式,” Suwajanakorn说。

该团队不是直接从音频合成最终视频,而是分两步解决问题。第一个涉及训练神经网络观看个人的视频并将不同的音频声音转换成基本的嘴形状。

通过将来自UW图形和图像实验室团队的先前研究与新口合成技术相结合,他们能够在现有的该人的参考视频上逼真地叠加和混合这些嘴形状和纹理。另一个关键的见解是允许一个小的时间转换,以使神经网络能够预测说话者下一步会说些什么。

新的唇形同步过程使研究人员能够使用他在电视谈话节目中或在几十年前的采访中所说的话,制作奥巴马在白宫发言的逼真视频。

目前,神经网络的设计目的是一次学习一个人,这意味着奥巴马的实际说话的话语是用来“驱动”合成视频的唯一信息。然而,未来的步骤包括帮助算法在各种情况下进行概括,以较少的数据识别人的语音和语音模式 - 例如,只需要一小时的视频来学习,而不是14小时。

“你不能只是把任何人的声音变成奥巴马的视频,”塞茨说。“我们非常有意识地决定不采取将别人的话语放入别人口中的道路。我们只是采取有人说话的真实话语,并将其转化为该人的真实视频。”

免责声明:本文由用户上传,如有侵权请联系删除!