微软称其人工智能可以像人一样描述图像
一直以来,AI的目标是准确描述图像,而不仅仅是像笨拙的机器人那样。谷歌在2016年表示,其人工智能可以为人类提供与人类几乎相同的字幕图像,准确率高达94%。现在,微软说它走得更远了:它的研究人员已经建立了一个比人类更精确的人工智能系统——以至于它现在处于nocaps图像字幕基准的顶端。微软声称,它自2015年以来一直使用的图像字幕模型是它的两倍。
尽管这本身就是一个非凡的里程碑,但微软并不仅仅将这项技术掌握在自己手中。现在,它提供了一个新的字幕模型,作为Azure认知服务的一部分,因此任何开发人员都可以将其引入到他们的应用程序中。如今,它还可以用在为盲人和视障用户开发的微软应用程序Seeing AI中,它可以描述他们周围的世界。今年下半年,字幕模式还将改善您在Web、Windows和Mac的PowerPoint中的演示。它还会在桌面上的Word和Outlook中弹出。
Azure AI的Eric Boyd在接受Engadget采访时表示:“图像捕捉是AI中最困难的问题之一。它不仅意味着理解场景中的对象,还意味着它们如何相互作用以及如何描述它们。”精细的字幕技术可以帮助到每一个用户:它让搜索引擎更容易找到需要的图片;对于视障用户来说,可以让浏览网络和软件变得更好。
黄,微软技术研究员,Azure AI认知服务首席技术官。微软
看到公司吹捧他们的人工智能研究创新并不少见,但很少能迅速将这些发现应用到交通产品中。Azure AI认知服务CTO黄为其对用户的潜在好处,推动其快速融入Azure。他的团队用标有特定关键词的图像训练模型,这有助于使它成为大多数人工智能框架没有的视觉语言。通常这些类型的模型都是通过使用图像和完整的标题进行训练的,这使得模型学习特定对象的交互模式更加困难。
“视觉词汇预训练本质上是训练系统所需要的教育;我们正在努力培养这种运动记忆,”黄在一篇博文中说。这就是这种新模式在nocaps基准测试中的优势,它的重点是确定AI如何为以前从未见过的字幕创建字幕。
然而,尽管打破基准很重要,但对微软新模式的真正考验将是它在现实世界中的功能。根据Boyd的说法,Seeing AI的开发者Saqib Shaik也促进了微软在他的盲人手中有更大的可访问性,他说这是对他们以前产品的一个很大的改进。现在微软设定了一个新的里程碑,看看谷歌和其他研究人员的竞争模型将如何竞争是很有趣的。
免责声明:本文由用户上传,如有侵权请联系删除!
猜你喜欢
最新文章
- 求K233次列车(15车厢的座位号)
- 能链综合能源港里的充电站为何成为香饽饽
- 鸡蛋怎么做比较有营养(鸡蛋怎么做比较好吃)
- lol手游霞怎么出装(LOL新英雄霞与洛逆羽霞如何出装霞怎么出装)
- 穿越火线什么时候上架(穿越火线什么时候能玩)
- 北比臼舅怎么读(北比臼日怎么读)
- 创世之柱任务有什么用(创世之柱任务怎么做)
- 徐磊的歌曲(写给你的歌 徐磊乐演唱作品)
- 广州市经济适用住房准购证明怎么办理(如何取得广州市经济适用住房准购证明)
- 王者里的百里玄策怎么玩(王者荣耀百里玄策怎么玩好百里玄策介绍)
- 荡漾意思是(荡漾的漾什么意思)
- 永和豆浆和永和大王有什么关系(永和大王和永和豆浆有什么区别)
- 血尿酸(血尿)
- 中国新歌声各季冠军(中国新歌声第一季冠军亚军分别是谁)
- 微信红包有语音红包吗(微信红包新玩法语音红包)
- 蚊子会被雨砸死吗(蚊子会被热死吗)
- 电脑上免费的录屏软件有哪些(电脑上免费的录屏软件哪个好)
- 2017世界杯赛程表时间(2018世界杯赛程时间表2018世界杯赛程安排)
- cz3790航班几点到珠海(今天的航班cz3740到达珠海是几点)
- 鸡蛋羹水开后蒸多长时间(鸡蛋羹水开后蒸几分钟)
- 微博ip属地以运营商为准什么意思(微博ip属地以运营商为准什么意思)
- 进出口贸易实务教程复习(进出口贸易实务教程)
- 最好的hdmi线有什么牌子好(哪个牌子的的HDMI线更好)
- 平均发电增益高达6.91%!国电电力天津30MW光伏电站晶科N型TOPCon发电数据出炉