使用人工智能生成高真实感视频的重要尝试
最近,DeepMind的研究人员开发了一个名为Dual Video Discriminator Gan(DVD-Gan)的人工智能模型,通过学习一系列YouTube视频数据集,可以生成高度逼真且连贯的256256像素视频,最大长度为48帧。
目前,DVD-GAN的研究成果已于2019年7月15日在arxiv上发表,名称为《在复杂数据集上的高效视频生成(Efficient Video Generation on Complex Datasets)》。
AI伪造视频比伪造图片更难
最近俄罗斯AI研究人员开发的FaceApp确实大受欢迎。这款app可以通过人工智能技术改变自拍用户的年龄、长相、发色、性别,甚至生成虚构的人物照片。这直接让人感受到人工智能技术给我们生活带来的乐趣。
但是有没有人想过,有一天这些技术也可以应用到视频领域?
如果说BigGAN是DeepMind在图像领域开发的一款图像生成器,能够生成高度逼真的图像,那么DeepMind研究人员开发的DVD-GAN则是人工智能在视频片段生成领域的最新突破。
研究人员在论文中表示,生成自然视频是生成性建模的一大挑战,同时也会受到数据复杂度和计算需求增加的困扰。
因此,业内研究人员在研究视频生成领域时,几乎都集中在相对简单的数据集上,或者利用有限的时间信息来降低任务的复杂度。
这一次,DeepMind研究人员主要专注于视频合成和视频预测的任务,将生成图像模型的强大功能和逼真效果扩展到视频领域。
DVD-GAN:基于BigGAN模型的结构
基于BigGAN的模型结构,研究人员构建了一个DVD-GAN系统,并针对视频生成引入了一系列调整,使得DVD-GAN可以在dynamics-600上进行训练。
dynamics-600是由50万个10秒高分辨率的YouTube视频剪辑组成的训练数据集。它最初是为了识别人的动作而制作的,比目前其他常用的语料库大一个数量级。
同时,研究人员表示,dynamics-600具有多样化的特性,可以消除他们对过拟合的担忧。过拟合主要是指机器学习中选择的模型包含太多参数,以至于该模型能够很好地预测已知数据,而对未知数据的预测较差的现象。
另一方面,DeepMind研究人员使用生成对抗来提供一个可以生成动作的学习信号。
此外,DVD-GAN有一个单独的Transformer模块,可以使学习信息在集成的AI模型中传播。
训练12到96小时可以生成视频
研究论文显示,经过谷歌第三代TPU 12到96小时的训练,DVD-GAN可以成功生成视频。这些视频包含了物体的构成和运动以及各种复杂的纹理。
遗憾的是,DVD-GAN生成的视频内容有时是“奇怪”的,比如生成的物体和人物是奇怪的,甚至人体会突然发生变化。
然而,研究人员指出,当将DVD-GAN放在UCF-101(一个包含13,320个人类动作视频的小数据集)上进行评估时,DVD-GAN生成的样本的初始值高达32.97。
DeepMind的研究人员希望进一步强调在大型复杂的视频数据集上训练生成模型的好处,例如dynamics-600。
“我们设想通过DVD-GAN在这个数据集上建立一个强基线,作为未来建模生成领域的参考点。”研究人员表示,“尽管在不受约束的环境中持续生成逼真的视频还有很多工作要做,但我们相信DVD-GAN是朝着这个方向迈出的重要一步。”
网络(GANs)用于区分生成样本和真实样本,主要由生成器和鉴别器组成。
GANs已经被用来将文字转换成场景和故事,或者生成人工星系图像。这一次,研究人员使用了一个名为BigGANs的世代对抗网络,该网络以其大批量和数百万个参数命名。
值得一提的是,DVD-GAN包含两个鉴别器。一种是空间鉴别器(D _ S),它通过随机采样全分辨率帧并分别处理它们来评估单个帧的内容和结构。另一种是时间鉴别器(D _ T),它可以提供一个可以产生动作的学习信号。
此外,DVD-GAN有一个单独的Transformer模块,可以使学习信息在集成的AI模型中传播。
结论:尝试用人工智能生成高度逼真的视频
无论是BigGAN还是FaceApp,之前的研究者在人工智能领域做了很多突破性的研究来生成图像,但是在视频领域,除了AI换脸之外,并没有更多的突破性进展。
DeepMind研究人员基于BigGAN架构和dynamics-600训练数据集开发的DVD-GAN,通过使用计算高效的鉴别器分解,扩展到时间更长、分辨率更高的视频。目前,这一成果虽然存在一些不足,但无疑是研究者利用AI生成高真实感视频的一次重要尝试。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
最新文章
- DNF搬砖最佳宠物搭配指南
- DNF白金徽章变现攻略:如何巧妙出售白金徽章
- 寒潮蓝色预警:近两日最低气温 0℃线南压至江南南部至贵州南部和云南北部一带
- DNA 纳米机器人:可改造人造细胞,推动合成生物学发展
- 新型巨型里德伯原子成为精准量子温度计
- 《生化危机9》重大爆料:里昂确定回归主角,吉尔缺席引热议
- 广东:到 2027 年 绿色低碳循环经济体系基本建成
- 2024 财年美国对外军售额创历史新高:背后的战略与影响
- 离子阱量子计算在近年实现双码纠错
- 这次与肯德基的全新联动,星铁再次硬控玩家热情?
- 新年多城土地市场回温:杭州单价地王纪录 3 个月内两度被打破,民企恢复拿地
- 扎克·克雷格执导新版《生化危机》电影,发行权引多家大公司激烈争夺
- 广东:积极推进煤炭消费控制,全力构建以新能源为主体的新型电力系统
- 广东:到 2027 年,全力构建绿色低碳循环经济体系
- 长三角铁路春运再创佳绩:昨日发送旅客 310.2 万人次
- 海通策略:2025 年政策见效下市场望步入基本面驱动新阶段,结构上科技制造确定性更强
- 《最终幻想14》水晶世界青魔法师职业任务全攻略
- 上海:推出乡村振兴领域优秀博士后创新计划,打造高潜力创新人才‘储备库’
- 春节机票价格跳水至百元,航司退差价政策各异引关注
- 浙江:到 2030 年,LNG 年接收能力达 4250 万吨
- 上海:启动乡村振兴博士后创新计划,打造高潜力人才‘蓄水池’
- 币界网晚讯速递:SHIB币价攀升至0.00002044美元,日内涨幅达2.10%
- 不知火舞《街霸6》惊艳换衣秀,细节之处尽显匠心,玩家为之痴狂
- 中国汽车:奋力争夺超豪华市场入场券