微软研究院释出开放资料集储存库不只能下载还能直接複製到Azure平台使用

互联网2021-02-28 14:05:09
最佳答案

为促进全球科学研究,微软释出新的开放资料储存库,其中包含了微软研究院累积多年用来发表研究的资料集,而开放资料集能够简化资料取得的门槛,帮助基于云端技术研究人员间的协作,实现研究的可重複性。微软提到,由于几乎所有研究项目都需要资料的参与,因此研究社群的确需要有组织的资料集,而且不仅限于电脑科学领域,在跨科学领域及其他专业领域都有相同的需求。

微软研究院人工智慧首席研究员John Krumm提到,他常被要求分享研究资料,而过去公开分享的这些资料现在变的更加热门,使用Azure对这些资料进行组织与编目,无论是内部或是外部的研究员都能够方便存取这些资料,同时也鼓励协作风气。微软研究开放资料网站上有许多种类的资料集,这些资料集都由微软的员工自己製作,并且已经用于发表的研究报告中,资料集领域包罗万象从电脑科学到生物学都有。

微软表示,这个开放资料储存库是为微软的研究人员以及其他合作伙伴提供一个方便的平台,以互相共享资料集、相关研究技术跟工具。微软降低了这些资料集存取的门槛,促进使用云端平台的研究人员互相协作,并能够有足够的资料集重现研究结果,微软承诺会继续发展这个资料集储存库,并根据社群回馈增加功能。虽然现在已有存在数十个类似的资料储存库,但微软仍期望这个开放资料库能够增强现存资料的丰富度。

微软研究院开放资料库遵循FAIR(Findable, Accessible, Interoperable and Reusable)资料原则,维持资料共享的品质,使用者可以直接在资料集中,找到与该资料相关的出版研究链结。在过去几年间,微软研究院广泛的与其他研究社群合作,共同创造云端研究基础架构,在一年前这个开放资料集储存库雏形出现,现在已经趋于成熟,能够释出给更多的研究人员使用。

微软认为,现在的资料量以指数成长,在2025年可获取的资料将达150ZB以上,因此他们优先开始进行资料处理,而非仰赖网路频宽移动资料,因为这样成长的速度将慢上许多。而他们也认为,提供处理资料的选项是真正有帮助,因此研究人员除了可以下载资料集,也可以直接在云端複製资料集到Azure资料科学虚拟机器上。

免责声明:本文由用户上传,如有侵权请联系删除!