首页>动态 >内容

微软称其人工智能可以像人一样描述图像

动态2021-08-21 16:01:40
最佳答案一直以来,AI的目标是准确描述图像,而不仅仅是像笨拙的机器人那样。谷歌在2016年表示,其人工智能可以为人类提供与人类几乎相同的字幕图像

一直以来,AI的目标是准确描述图像,而不仅仅是像笨拙的机器人那样。谷歌在2016年表示,其人工智能可以为人类提供与人类几乎相同的字幕图像,准确率高达94%。现在,微软说它走得更远了:它的研究人员已经建立了一个比人类更精确的人工智能系统——以至于它现在处于nocaps图像字幕基准的顶端。微软声称,它自2015年以来一直使用的图像字幕模型是它的两倍。

微软表示其AI可以像人们一样描述图像

尽管这本身就是一个非凡的里程碑,但微软并不仅仅将这项技术掌握在自己手中。现在,它提供了一个新的字幕模型,作为Azure认知服务的一部分,因此任何开发人员都可以将其引入到他们的应用程序中。如今,它还可以用在为盲人和视障用户开发的微软应用程序Seeing AI中,它可以描述他们周围的世界。今年下半年,字幕模式还将改善您在Web、Windows和Mac的PowerPoint中的演示。它还会在桌面上的Word和Outlook中弹出。

Azure AI的Eric Boyd在接受Engadget采访时表示:“图像捕捉是AI中最困难的问题之一。它不仅意味着理解场景中的对象,还意味着它们如何相互作用以及如何描述它们。”精细的字幕技术可以帮助到每一个用户:它让搜索引擎更容易找到需要的图片;对于视障用户来说,可以让浏览网络和软件变得更好。

黄,微软技术研究员,Azure AI认知服务首席技术官。微软

看到公司吹捧他们的人工智能研究创新并不少见,但很少能迅速将这些发现应用到交通产品中。Azure AI认知服务CTO黄为其对用户的潜在好处,推动其快速融入Azure。他的团队用标有特定关键词的图像训练模型,这有助于使它成为大多数人工智能框架没有的视觉语言。通常这些类型的模型都是通过使用图像和完整的标题进行训练的,这使得模型学习特定对象的交互模式更加困难。

微软表示其AI可以像人们一样描述图像

“视觉词汇预训练本质上是训练系统所需要的教育;我们正在努力培养这种运动记忆,”黄在一篇博文中说。这就是这种新模式在nocaps基准测试中的优势,它的重点是确定AI如何为以前从未见过的字幕创建字幕。

然而,尽管打破基准很重要,但对微软新模式的真正考验将是它在现实世界中的功能。根据Boyd的说法,Seeing AI的开发者Saqib Shaik也促进了微软在他的盲人手中有更大的可访问性,他说这是对他们以前产品的一个很大的改进。现在微软设定了一个新的里程碑,看看谷歌和其他研究人员的竞争模型将如何竞争是很有趣的。

免责声明:本文由用户上传,如有侵权请联系删除!