首页>动态 >内容

谷歌的VideoBERT算法可以一次预测未来的烹饪视频

动态2021-08-23 14:02:38
最佳答案 谷歌有限责任公司(Google LLC)今天推出了VideoBERT,这是一种人工智能,可以像人类一样观看视频的一部分,并推断未来几秒钟内会发生什么

谷歌有限责任公司(Google LLC)今天推出了VideoBERT,这是一种人工智能,可以像人类一样观看视频的一部分,并推断未来几秒钟内会发生什么。

Google的VideoBERT算法可一次预测未来的烹饪视频

需要非常复杂的算法,才能让计算机具备从视觉场景中理解并得出正确结论的能力。然而,对于谷歌研究人员来说,挑战不是构建算法,而是找到足够的数据进行训练。机器学习模型必须吸收大量信息才能理解甚至基本概念,通常必须手动准备信息。

对于VideoBERT来说,这是不可行的,因为教模型如何预测未来事件需要更多的示例视频,这些视频可以由谷歌研究人员手动组装。他们还必须为每个片段的每个单独帧编写描述,以便人工智能可以跟踪正在发生的事情。于是,团队提出了一个替代方案:免费教学视频。

Google的VideoBERT算法可一次预测未来的烹饪视频

在展示如何烹饪煎蛋或填充轮胎的视频中,演示者通常会解释执行任务时的每一步,并逐帧讲述研究人员用来替换他们应该做的事情的描述,否则它就是为人工智能创建的。该团队编辑了100多万个剪辑,涵盖了烹饪和园艺等类别。然后,他们将它们输入VideoBERT,教模型如何跟踪常见活动的进度。

训练结束后,模特被放上了一段从未见过的烹饪视频。当视频片段显示一碗面粉和可可粉的视频片段时,VideoBERT巧妙地预测这些配料会被放入烤箱,变成布朗尼或蛋糕。研究人员还试图利用算法的观察技术从视频中提取食谱,厨师在视频中解释了如何烹饪牛排。

Google的VideoBERT算法可一次预测未来的烹饪视频

谷歌开发的训练视频伯特的方法最终可以在更严肃的应用中找到用处。例如,如果自动驾驶汽车能够在接下来的几秒钟内准确预测附近车辆的位置,它们可能会变得更加安全。对于在人类工人附近工作的无人机和工业机器人来说,这一愿景也可能是一项重要资产。

免责声明:本文由用户上传,如有侵权请联系删除!