元数据管理 开源项目技术选型

Posted 终回首

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了元数据管理 开源项目技术选型相关的知识,希望对你有一定的参考价值。

元数据管理或者叫数据发现服务 开源项目技术选型

一、元数据管理简介

是什么?

元数据(又称字典)是属于数据库本身的一些数据,包含数据库名、数据库字符集、表名、表的大小、表的记录行数、表的字符集、表的字段、表的索引、表的描述、字段的类型、字段的精度、字段的描述等。

为什么?

  1. 可以知道有哪些数据(数据资产地图)
  2. 可以知道数据与数据间的关系(数据血缘)
  3. 可以根据元数据判断数据质量(数据质量)

二、开源方案介绍

介绍不分先后

Linkedin Datahub

Linkedin公司开源,为现代数据栈而生的元数据管理平台

功能:
元数据读取,元数据展示,给元数据打标签

项目地址:
https://github.com/linkedin/datahub

详细介绍:
https://zhuanlan.zhihu.com/p/80459081

Apache Atlas

Atlas 是一个可伸缩和可扩展的核心基础治理服务集合 ,使企业能够有效地和高效地满足 Hadoop 中的合规性要求,并允许与整个企业数据生态系统的集成。

项目地址:
https://github.com/apache/atlas

详细介绍:
https://blog.csdn.net/qq_38247150/article/details/108756790

Netflix Metacat

Metacat 是Netflix开源的一种元数据服务,方便我们发现、处理和管理数据。

项目地址:
https://github.com/Netflix/metacat

详细介绍:
https://blog.csdn.net/fct2001140269/article/details/111034764

LYFT Amundsen

Amundsen 是来自Lyft 开源的元数据管理、数据发现平台,功能点很全,有一个比较全的前端、后端以及数据处理框架。

项目地址:
https://github.com/amundsen-io/amundsen

详细介绍:
https://blog.csdn.net/fct2001140269/article/details/111034764

三、详细对比

对比项Linkedin DatahubApache AtlasNetflix MetacatLYFT Amundsen
第一个稳定版发布时间2020-102015-62017-72021-5
仓库 watch/star/fork198/3.3k/92162/946/545355/1.1k/193252/2.4k/566
仓库 issue/pull request124/15756/5231/4105/14
开发语言Typescript/Java/Pythonjavascript/Java/PythonJava/GroovyTypescript/Python
文档完善度9908
features数据集、标签、用户、用户、仪表板元数据类型和实例、分类、血统、搜索/发现、安全和数据屏蔽数据抽象和互操作性、业务和用户定义的元数据存储、数据发现、数据变更审计和通知搜索和排名

四、推荐度

综合考虑详细对比的各个维度,推荐度如下

  1. Apache Atlas
    理由:文档全面,apache背书,和hadoop生态集成能力好,功能全面
  2. Linkedin Datahub
    理由:文档全面,功能全面
  3. LYFT Amundsen
    理由:文档全面,功能差一些
  4. Netflix Metacat
    理由:没有文档,官方资料少

PS:有误之处,请不吝赐教!

以上是关于元数据管理 开源项目技术选型的主要内容,如果未能解决你的问题,请参考以下文章

数据仓库技术选型

数据湖统一元数据与权限

saiku 元数据存储分析

Apache Atlas使用测评

开源组件:用元数据和BeanUtils写一个简单的ORM映射BaseDAO.java

开发微信全家桶项目 VueNode/MongoDB高级技术栈全覆盖价值448元