微软称其人工智能可以像人一样描述图像
一直以来,AI的目标是准确描述图像,而不仅仅是像笨拙的机器人那样。谷歌在2016年表示,其人工智能可以为人类提供与人类几乎相同的字幕图像,准确率高达94%。现在,微软说它走得更远了:它的研究人员已经建立了一个比人类更精确的人工智能系统——以至于它现在处于nocaps图像字幕基准的顶端。微软声称,它自2015年以来一直使用的图像字幕模型是它的两倍。
尽管这本身就是一个非凡的里程碑,但微软并不仅仅将这项技术掌握在自己手中。现在,它提供了一个新的字幕模型,作为Azure认知服务的一部分,因此任何开发人员都可以将其引入到他们的应用程序中。如今,它还可以用在为盲人和视障用户开发的微软应用程序Seeing AI中,它可以描述他们周围的世界。今年下半年,字幕模式还将改善您在Web、Windows和Mac的PowerPoint中的演示。它还会在桌面上的Word和Outlook中弹出。
Azure AI的Eric Boyd在接受Engadget采访时表示:“图像捕捉是AI中最困难的问题之一。它不仅意味着理解场景中的对象,还意味着它们如何相互作用以及如何描述它们。”精细的字幕技术可以帮助到每一个用户:它让搜索引擎更容易找到需要的图片;对于视障用户来说,可以让浏览网络和软件变得更好。
黄,微软技术研究员,Azure AI认知服务首席技术官。微软
看到公司吹捧他们的人工智能研究创新并不少见,但很少能迅速将这些发现应用到交通产品中。Azure AI认知服务CTO黄为其对用户的潜在好处,推动其快速融入Azure。他的团队用标有特定关键词的图像训练模型,这有助于使它成为大多数人工智能框架没有的视觉语言。通常这些类型的模型都是通过使用图像和完整的标题进行训练的,这使得模型学习特定对象的交互模式更加困难。
“视觉词汇预训练本质上是训练系统所需要的教育;我们正在努力培养这种运动记忆,”黄在一篇博文中说。这就是这种新模式在nocaps基准测试中的优势,它的重点是确定AI如何为以前从未见过的字幕创建字幕。
然而,尽管打破基准很重要,但对微软新模式的真正考验将是它在现实世界中的功能。根据Boyd的说法,Seeing AI的开发者Saqib Shaik也促进了微软在他的盲人手中有更大的可访问性,他说这是对他们以前产品的一个很大的改进。现在微软设定了一个新的里程碑,看看谷歌和其他研究人员的竞争模型将如何竞争是很有趣的。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
最新文章
- DNF搬砖最佳宠物搭配指南
- DNF白金徽章变现攻略:如何巧妙出售白金徽章
- 寒潮蓝色预警:近两日最低气温 0℃线南压至江南南部至贵州南部和云南北部一带
- DNA 纳米机器人:可改造人造细胞,推动合成生物学发展
- 新型巨型里德伯原子成为精准量子温度计
- 《生化危机9》重大爆料:里昂确定回归主角,吉尔缺席引热议
- 广东:到 2027 年 绿色低碳循环经济体系基本建成
- 2024 财年美国对外军售额创历史新高:背后的战略与影响
- 离子阱量子计算在近年实现双码纠错
- 这次与肯德基的全新联动,星铁再次硬控玩家热情?
- 新年多城土地市场回温:杭州单价地王纪录 3 个月内两度被打破,民企恢复拿地
- 扎克·克雷格执导新版《生化危机》电影,发行权引多家大公司激烈争夺
- 广东:积极推进煤炭消费控制,全力构建以新能源为主体的新型电力系统
- 广东:到 2027 年,全力构建绿色低碳循环经济体系
- 长三角铁路春运再创佳绩:昨日发送旅客 310.2 万人次
- 海通策略:2025 年政策见效下市场望步入基本面驱动新阶段,结构上科技制造确定性更强
- 《最终幻想14》水晶世界青魔法师职业任务全攻略
- 上海:推出乡村振兴领域优秀博士后创新计划,打造高潜力创新人才‘储备库’
- 春节机票价格跳水至百元,航司退差价政策各异引关注
- 浙江:到 2030 年,LNG 年接收能力达 4250 万吨
- 上海:启动乡村振兴博士后创新计划,打造高潜力人才‘蓄水池’
- 币界网晚讯速递:SHIB币价攀升至0.00002044美元,日内涨幅达2.10%
- 不知火舞《街霸6》惊艳换衣秀,细节之处尽显匠心,玩家为之痴狂
- 中国汽车:奋力争夺超豪华市场入场券