AWS正式推出资料湖管理工具Lake Formation
AWS在去年re:Invent 2018大会上介绍的资料湖管理工具AWS Lake Formation,现在推出正式版,用户可以使用AWS Lake Formation对资料进行撷取、清理、分类、转换以及保护的工作,方便后续分析或是机器学习使用。
AWS提到,只要企业开始使用数位格式的资料,那就可能需要建立一个资料仓储,从CRM或是ERP等营运系统收集资料,并给其他决策支援系统使用,这些资料包括未组织的原始资料、日誌、图片、影片或是扫描的文件等,而这也是资料湖的概念,将所有资料以各种规模与形式,储存在中央储存库中。
而AWS新推出的资料湖服务Lake Formation,能简化资料湖的管理工作,用户可以使用中央控制台,处理建置和配置资料湖繁杂的工作,包括载入不同来源的资料、监控资料流、设定资料分区、加密和管理金钥,以及格式转换与监控营运等工作。
只要在Lake Formation中指定资料来源,系统就会自动从资料库和物件储存撷取资料,并将这些资料储存到Amazon S3资料湖中,以适当的大小与方式整理,增加存取效能,并以机器学习演算法清理和分类资料,为敏感资料提供存取保护。
用户还可以使用Glue ML Transforms删除资料湖中重複的资料,提高后续分析资料的效率,避免因为重複的资料,造成分析工作的混淆。AWS提到,这项工作并非单纯透过键值比对,就能找出重複的资料,很多情况需要进行模糊比对,像是当用户需要在不同表格查询类似的项目时,就需要使用模糊连接(Fuzzy Join),在不共用唯一键值的两个资料库表格查询相似资料。
在保护资料存取方面,用户可以在Lake Formation中,定义精细的存取政策,保护Glue Data Catalog中的元资料,以及储存在Amazon S3的资料,AWS提到,在资料湖中管理存取权限是一件複杂的任务,因为资料的各种特性,包括结构化与否、敏感性或是可存取的资料範围不一,而Lake Formation赋予用户以IAM使用者、角色、群组和AD来管理资料存取,也能够拒绝表格特定的栏位被存取。
免责声明:本文由用户上传,如有侵权请联系删除!
猜你喜欢
最新文章
- 个性标签写什么好8个字(个性标签8个字简介介绍)
- 贴吧和i吧有什么区别(贴吧和i吧有什么区别)
- 东北话得细小是什么意思(东北话小得得是啥意思)
- 太姥山旅游最新攻略一日游(太姥山旅游线路)
- 12月有什么好电影上映(12月上映好看的电影)
- 妒海主题曲百度云(泰剧妒海的主题曲和片尾mp3格式的谁有谢谢)
- 元奎在好莱坞拍过多少电影(指导过多少电影 都叫什么)
- 怎么关闭wps删除提示(wps屏幕提醒怎么关闭简介介绍)
- 4399弹弹堂vip折扣券(4399弹弹堂怎么刷点券啊)
- 企业天猫入驻条件及费用(天猫入驻条件及费用简介介绍)
- 尹相杰母亲是马玉涛吗(尹相杰母亲是马玉涛吗)
- 冬至应该吃什么食物(冬至应该吃什么食物)
- nokia6600复刻版本(NOKIA6630~~~)
- 新年快乐日语怎么说(新年快乐日语怎么说)
- 工作交接清单怎样写,格式是怎样的(工作交接清单怎样写格式是怎样的简介介绍)
- 为什么我的梦幻诛仙人物快捷键用不出来(求高手解答 我换了很多台机子了)
- 三星note3开不了机(三星note1手机为什么开不了机)
- 迅雷种子怎么提取(前缀是什么)
- poison(ivy 什么意思)
- 魔法卡片掉卡规则(魔法卡片中怎么没有变闪卡的卡友)
- 眼部结构简图(眼部结构简介介绍)
- 武汉外高国际部学费(武汉外高出国)
- 湖南台为什么叫马桶(湖南台为什么叫芒果台)
- 公元前10000年是什么年(公元前10000年)