元数据管理 开源项目技术选型
Posted 终回首
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了元数据管理 开源项目技术选型相关的知识,希望对你有一定的参考价值。
元数据管理或者叫数据发现服务 开源项目技术选型
一、元数据管理简介
是什么?
元数据(又称字典)是属于数据库本身的一些数据,包含数据库名、数据库字符集、表名、表的大小、表的记录行数、表的字符集、表的字段、表的索引、表的描述、字段的类型、字段的精度、字段的描述等。
为什么?
- 可以知道有哪些数据(数据资产地图)
- 可以知道数据与数据间的关系(数据血缘)
- 可以根据元数据判断数据质量(数据质量)
二、开源方案介绍
介绍不分先后
Linkedin Datahub
Linkedin公司开源,为现代数据栈而生的元数据管理平台
功能:
元数据读取,元数据展示,给元数据打标签
项目地址:
https://github.com/linkedin/datahub
详细介绍:
https://zhuanlan.zhihu.com/p/80459081
Apache Atlas
Atlas 是一个可伸缩和可扩展的核心基础治理服务集合 ,使企业能够有效地和高效地满足 Hadoop 中的合规性要求,并允许与整个企业数据生态系统的集成。
项目地址:
https://github.com/apache/atlas
详细介绍:
https://blog.csdn.net/qq_38247150/article/details/108756790
Netflix Metacat
Metacat 是Netflix开源的一种元数据服务,方便我们发现、处理和管理数据。
项目地址:
https://github.com/Netflix/metacat
详细介绍:
https://blog.csdn.net/fct2001140269/article/details/111034764
LYFT Amundsen
Amundsen 是来自Lyft 开源的元数据管理、数据发现平台,功能点很全,有一个比较全的前端、后端以及数据处理框架。
项目地址:
https://github.com/amundsen-io/amundsen
详细介绍:
https://blog.csdn.net/fct2001140269/article/details/111034764
三、详细对比
对比项 | Linkedin Datahub | Apache Atlas | Netflix Metacat | LYFT Amundsen |
---|---|---|---|---|
第一个稳定版发布时间 | 2020-10 | 2015-6 | 2017-7 | 2021-5 |
仓库 watch/star/fork | 198/3.3k/921 | 62/946/545 | 355/1.1k/193 | 252/2.4k/566 |
仓库 issue/pull request | 124/15 | 756/52 | 31/4 | 105/14 |
开发语言 | Typescript/Java/Python | javascript/Java/Python | Java/Groovy | Typescript/Python |
文档完善度 | 9 | 9 | 0 | 8 |
features | 数据集、标签、用户、用户、仪表板 | 元数据类型和实例、分类、血统、搜索/发现、安全和数据屏蔽 | 数据抽象和互操作性、业务和用户定义的元数据存储、数据发现、数据变更审计和通知 | 搜索和排名 |
四、推荐度
综合考虑详细对比的各个维度,推荐度如下
- Apache Atlas
理由:文档全面,apache背书,和hadoop生态集成能力好,功能全面 - Linkedin Datahub
理由:文档全面,功能全面 - LYFT Amundsen
理由:文档全面,功能差一些 - Netflix Metacat
理由:没有文档,官方资料少
PS:有误之处,请不吝赐教!
以上是关于元数据管理 开源项目技术选型的主要内容,如果未能解决你的问题,请参考以下文章