首页>动态 >内容

使用人工智能生成高真实感视频的重要尝试

动态2021-08-27 12:03:43
最佳答案 最近,DeepMind的研究人员开发了一个名为Dual Video Discriminator Gan(DVD-Gan)的人工智能模型,通过学习一系列YouTube视频数据

最近,DeepMind的研究人员开发了一个名为Dual Video Discriminator Gan(DVD-Gan)的人工智能模型,通过学习一系列YouTube视频数据集,可以生成高度逼真且连贯的256256像素视频,最大长度为48帧。

目前,DVD-GAN的研究成果已于2019年7月15日在arxiv上发表,名称为《在复杂数据集上的高效视频生成(Efficient Video Generation on Complex Datasets)》。

AI伪造视频比伪造图片更难

最近俄罗斯AI研究人员开发的FaceApp确实大受欢迎。这款app可以通过人工智能技术改变自拍用户的年龄、长相、发色、性别,甚至生成虚构的人物照片。这直接让人感受到人工智能技术给我们生活带来的乐趣。

但是有没有人想过,有一天这些技术也可以应用到视频领域?

如果说BigGAN是DeepMind在图像领域开发的一款图像生成器,能够生成高度逼真的图像,那么DeepMind研究人员开发的DVD-GAN则是人工智能在视频片段生成领域的最新突破。

研究人员在论文中表示,生成自然视频是生成性建模的一大挑战,同时也会受到数据复杂度和计算需求增加的困扰。

因此,业内研究人员在研究视频生成领域时,几乎都集中在相对简单的数据集上,或者利用有限的时间信息来降低任务的复杂度。

这一次,DeepMind研究人员主要专注于视频合成和视频预测的任务,将生成图像模型的强大功能和逼真效果扩展到视频领域。

DVD-GAN:基于BigGAN模型的结构

基于BigGAN的模型结构,研究人员构建了一个DVD-GAN系统,并针对视频生成引入了一系列调整,使得DVD-GAN可以在dynamics-600上进行训练。

dynamics-600是由50万个10秒高分辨率的YouTube视频剪辑组成的训练数据集。它最初是为了识别人的动作而制作的,比目前其他常用的语料库大一个数量级。

同时,研究人员表示,dynamics-600具有多样化的特性,可以消除他们对过拟合的担忧。过拟合主要是指机器学习中选择的模型包含太多参数,以至于该模型能够很好地预测已知数据,而对未知数据的预测较差的现象。

另一方面,DeepMind研究人员使用生成对抗来提供一个可以生成动作的学习信号。

此外,DVD-GAN有一个单独的Transformer模块,可以使学习信息在集成的AI模型中传播。

训练12到96小时可以生成视频

研究论文显示,经过谷歌第三代TPU 12到96小时的训练,DVD-GAN可以成功生成视频。这些视频包含了物体的构成和运动以及各种复杂的纹理。

遗憾的是,DVD-GAN生成的视频内容有时是“奇怪”的,比如生成的物体和人物是奇怪的,甚至人体会突然发生变化。

然而,研究人员指出,当将DVD-GAN放在UCF-101(一个包含13,320个人类动作视频的小数据集)上进行评估时,DVD-GAN生成的样本的初始值高达32.97。

DeepMind的研究人员希望进一步强调在大型复杂的视频数据集上训练生成模型的好处,例如dynamics-600。

“我们设想通过DVD-GAN在这个数据集上建立一个强基线,作为未来建模生成领域的参考点。”研究人员表示,“尽管在不受约束的环境中持续生成逼真的视频还有很多工作要做,但我们相信DVD-GAN是朝着这个方向迈出的重要一步。”

网络(GANs)用于区分生成样本和真实样本,主要由生成器和鉴别器组成。

GANs已经被用来将文字转换成场景和故事,或者生成人工星系图像。这一次,研究人员使用了一个名为BigGANs的世代对抗网络,该网络以其大批量和数百万个参数命名。

值得一提的是,DVD-GAN包含两个鉴别器。一种是空间鉴别器(D _ S),它通过随机采样全分辨率帧并分别处理它们来评估单个帧的内容和结构。另一种是时间鉴别器(D _ T),它可以提供一个可以产生动作的学习信号。

此外,DVD-GAN有一个单独的Transformer模块,可以使学习信息在集成的AI模型中传播。

结论:尝试用人工智能生成高度逼真的视频

无论是BigGAN还是FaceApp,之前的研究者在人工智能领域做了很多突破性的研究来生成图像,但是在视频领域,除了AI换脸之外,并没有更多的突破性进展。

DeepMind研究人员基于BigGAN架构和dynamics-600训练数据集开发的DVD-GAN,通过使用计算高效的鉴别器分解,扩展到时间更长、分辨率更高的视频。目前,这一成果虽然存在一些不足,但无疑是研究者利用AI生成高真实感视频的一次重要尝试。

免责声明:本文由用户上传,如有侵权请联系删除!