人工智能系统可以通过观看视频来理解您的视频

人工智能2022-05-10 09:03:40
最佳答案 新的人工智能系统 (AI) 可以观看和收听您的视频并标记正在发生的事情。麻省理工学院的研究人员开发了一种技术,可以教人工智能捕捉视频和

新的人工智能系统 (AI) 可以观看和收听您的视频并标记正在发生的事情。

麻省理工学院的研究人员开发了一种技术,可以教人工智能捕捉视频和音频之间共享的动作。例如,他们的方法可以理解视频中婴儿哭泣的行为与声音片段中的口语“哭泣”有关。这是教人工智能如何理解人类可以轻松学习但计算机难以掌握的概念的努力的一部分。

“当你拥有描述良好且完整的数据集时,流行的学习范式监督学习效果很好,”人工智能专家菲尔温德在电子邮件采访中告诉 Lifewire。“不幸的是,数据集很少是完整的,因为现实世界有呈现新情况的坏习惯。”

更智能的人工智能

计算机很难弄清楚日常场景,因为它们需要处理数据而不是像人类那样处理声音和图像。当机器“看到”一张照片时,它必须将该照片编码为可用于执行图像分类等任务的数据。当输入有多种格式(如视频、音频剪辑和图像)时,人工智能可能会陷入困境。

“这里的主要挑战是,机器如何调整这些不同的模式?作为人类,这对我们来说很容易,”麻省理工学院研究员、有关该主题的论文的第一作者Alexander Liu在新闻发布会上说。“我们看到一辆汽车,然后听到汽车驶过的声音,我们知道这些是一回事。但对于机器学习来说,这并不是那么简单。”

Liu 的团队开发了一种人工智能技术,他们说这种技术可以学习表示数据以捕获视觉和音频数据之间共享的概念。使用这些知识,他们的机器学习模型可以识别视频中特定动作发生的位置并标记它。

新模型采用原始数据,例如视频及其相应的文本字幕,并通过提取有关视频中对象和动作的特征或观察来对它们进行编码。然后它将这些数据点映射到一个网格中,称为嵌入空间。该模型将相似的数据聚集在一起作为网格中的单个点;这些数据点或向量中的每一个都由一个单词表示。

例如,一个人杂耍的视频剪辑可能会映射到一个标记为“杂耍”的向量。

研究人员设计了该模型,因此它只能使用 1,000 个单词来标记向量。该模型可以决定要将哪些动作或概念编码到单个向量中,但它只能使用 1,000 个向量。模型选择它认为最能代表数据的词。

“如果有关于猪的视频,模型可能会将‘猪’这个词分配给 1000 个向量中的一个。然后,如果模型在音频剪辑中听到有人说‘猪’这个词,它应该仍然使用相同的向量对其进行编码,”刘解释说。

您的视频,已解码

生物识别公司 Innovatrics 的研发主管Marian Beszedes在电子邮件采访中告诉 Lifewire ,麻省理工学院开发的更好的标签系统可以帮助减少人工智能的偏见。Beszedes 建议数据行业可以从制造过程的角度来看待人工智能系统。

“系统接受原始数据作为输入(原材料),对其进行预处理、摄取、做出决策或预测以及输出分析(成品),”Beszedes 说。“我们将此流程称为‘数据工厂’,与其他制造流程一样,它应该受到质量控制。数据行业需要将人工智能偏差视为质量问题。

“从消费者的角度来看,错误标记的数据使得在线搜索特定图像/视频变得更加困难,”Beszedes 补充道。“使用正确开发的人工智能,您可以自动进行标记,比手动标记更快、更中性。”

但是 MIT 模型仍然存在一些局限性。一方面,他们的研究同时关注来自两个来源的数据,但在现实世界中,人类同时遇到多种类型的信息,刘说

“我们知道 1000 个单词在这种数据集上起作用,但我们不知道它是否可以推广到现实世界的问题,”刘补充道。

麻省理工学院的研究人员表示,他们的新技术优于许多类似模型。如果可以训练人工智能来理解视频,那么你最终可能会跳过观看朋友的假期视频,而是获得计算机生成的报告。

免责声明:本文由用户上传,如有侵权请联系删除!