微软称其人工智能可以像人一样描述图像

动态2021-08-21 16:01:40

最佳答案一直以来，AI的目标是准确描述图像，而不仅仅是像笨拙的机器人那样。谷歌在2016年表示，其人工智能可以为人类提供与人类几乎相同的字幕图像

一直以来，AI的目标是准确描述图像，而不仅仅是像笨拙的机器人那样。谷歌在2016年表示，其人工智能可以为人类提供与人类几乎相同的字幕图像，准确率高达94%。现在，微软说它走得更远了：它的研究人员已经建立了一个比人类更精确的人工智能系统——以至于它现在处于nocaps图像字幕基准的顶端。微软声称，它自2015年以来一直使用的图像字幕模型是它的两倍。

微软表示其AI可以像人们一样描述图像

尽管这本身就是一个非凡的里程碑，但微软并不仅仅将这项技术掌握在自己手中。现在，它提供了一个新的字幕模型，作为Azure认知服务的一部分，因此任何开发人员都可以将其引入到他们的应用程序中。如今，它还可以用在为盲人和视障用户开发的微软应用程序Seeing AI中，它可以描述他们周围的世界。今年下半年，字幕模式还将改善您在Web、Windows和Mac的PowerPoint中的演示。它还会在桌面上的Word和Outlook中弹出。

Azure AI的Eric Boyd在接受Engadget采访时表示：“图像捕捉是AI中最困难的问题之一。它不仅意味着理解场景中的对象，还意味着它们如何相互作用以及如何描述它们。”精细的字幕技术可以帮助到每一个用户：它让搜索引擎更容易找到需要的图片；对于视障用户来说，可以让浏览网络和软件变得更好。

黄，微软技术研究员，Azure AI认知服务首席技术官。微软

看到公司吹捧他们的人工智能研究创新并不少见，但很少能迅速将这些发现应用到交通产品中。Azure AI认知服务CTO黄为其对用户的潜在好处，推动其快速融入Azure。他的团队用标有特定关键词的图像训练模型，这有助于使它成为大多数人工智能框架没有的视觉语言。通常这些类型的模型都是通过使用图像和完整的标题进行训练的，这使得模型学习特定对象的交互模式更加困难。

微软表示其AI可以像人们一样描述图像

“视觉词汇预训练本质上是训练系统所需要的教育；我们正在努力培养这种运动记忆，”黄在一篇博文中说。这就是这种新模式在nocaps基准测试中的优势，它的重点是确定AI如何为以前从未见过的字幕创建字幕。

然而，尽管打破基准很重要，但对微软新模式的真正考验将是它在现实世界中的功能。根据Boyd的说法，Seeing AI的开发者Saqib Shaik也促进了微软在他的盲人手中有更大的可访问性，他说这是对他们以前产品的一个很大的改进。现在微软设定了一个新的里程碑，看看谷歌和其他研究人员的竞争模型将如何竞争是很有趣的。

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

标签：

上一篇：微软将加强人工智能系统

下一篇：亚马逊的Alexa将在2021年初推出三个新的名人声音

微软称其人工智能可以像人一样描述图像

热门文章

栏目推荐

微软称其人工智能可以像人一样描述图像

猜你喜欢

最新文章

热门文章

栏目推荐