Google为云端TPU运算服务开源释出两套影像分割模型

互联网2021-02-23 12:06:16
最佳答案

图片来源:

Google

Google最近为云端TPU运算服务开发了两套影像分割(segmentation)模型,分别是Mask R-CNN和DeepLab v3+,Google指出,两套模型的效能和成本不同,使用者可依据自家业务或是产品的需求,来选择适合的模型和TPU配置,且为了方便开发者处理影像分割的过程,Google还将两套模型开源释出。

Google在2017年5月推出云端TPU运算服务,就是为了加速机器学习应用,包含影像辨识、语言模型和强化学习等,现在推出两套专为云端TPU运算服务打造的影像分割模型,是为了使机器学习研究员、工程师、App开发者、学生等,能够更快速地训练出符合真实世界影像分割需求的自家模型。

影像分割是在图像中标注区域的过程,通常需要细分到像素等级,目前有两种较常见的影像分割方法,包含实例(instance)分割和图像语义(semantic)分割,实例分割的过程,能够针对一个或是多个物体类别的每个个别实例,给予一个距离标注,举例来说,在一张全家福的照片中,包含了多个人物,用实例分割方法的模型会自动用不同颜色标注每个人。另一种则是图像语义分割,该方法会根据物体的类别或是结构,来标注图片中的每个像素,像是一张城市的街景图可能会有人行道、建筑物、行人、车辆等标籤。

自动驾驶、地理空间影像处理和医疗影像等其他的应用,通常都需要这些影像分割的技术,甚至是在一些特定的照片和影片编辑处理中,像是散景(bokeh)或是去背,影像分割都扮演着重要的角色,而开发者在使用影像分割模型时,会考量多种因素,包含模型準确度、训练成本和时间等,为了协助开发者找出适合自家的影像分割模型,Google用标準的影像分割资料库,训练了Mask R-CNN和DeepLab v3+,并收集了训练相关的数据,提供开发者参考。

为了达到影像分割最佳的效能,需要整合极快的硬体和最优化的软体,Mask R-CNN是一个两阶段的实例分割模型,能够用来定位影像中的多个物体,第一阶段先从输入影像中萃取出特徵,并产生区域分割建议,这些区域被模型认为含有目标物体,而第二阶段则是过滤并精化区域分割建议,进而预测每个物体的类别,以及为每个物体生成一个像素级的遮罩(mask)。

在Mask R-CNN模型的实验中,Google发现,在模型的训练时间和準确率之间,必须有所取捨,模型準确率在不同的应用中,会有不同的要求,对有些应用来说,训练时间可能是首要考量因素,但对于其他应用而言,準确率才是最重要的,而模型所需的训练时间,也会依据训练样本数和TPU硬体配置而有所不同,

另外,DeepLab v3+则是个快速又準确的语义分割模型,使得在图像中标注区域的工作变得更加容易,举例来说,照片编辑应用可能会用DeepLab v3+模型,来自动选出风景照中,所有包含天空的像素。Google在去年就宣布,开源释出最初版的DeepLab v3+,而现在则是推出针对云端TPU更加优化过的版本,Google在TensorFlow 1.13框架中,搭配云端TPU v2和 TPU v3 的硬体,用PASCAL VOC 2012资料集训练DeepLab v3+模型,若只用单个云端TPU v2设备来训练,DeepLab v3+模型能在大约8小时内完成训练,且成本少于40美元。

免责声明:本文由用户上传,如有侵权请联系删除!