网易考拉数据仓库构建实践
Posted CIO之家
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网易考拉数据仓库构建实践相关的知识,希望对你有一定的参考价值。
全量离线接入:将业务数据从各类数据源(mysql、Oracle、PostgreSQL、MongoDB 等)离线导入数据仓库以及其他相关大数据环境,适用于对数据导入实时性要求不高以及静态数据源的场景,例如将某业务上个月的所有数据导入数据仓库用于数据分析。
关系型数据库和日志的增量实时/准实时接入:分别使用了自研的 NDC 系统和 DataStream,将业务库中增量数据和 APP 日志实时导入到大数据环境,延迟可控制在秒级,适用于对数据导入实时性要求高,且业务快速增长的场景。
元数据管理的主要目标是标准化企业内部的元数据定义。而随着数据依存度逐年增加,追踪数据流动,了解数据含义和血缘关系越发困难。通过数据地图、数据字典、数据血缘三个方面保证企业的元数据标准。同时对主题、维度、指标进行一致性定义和管理解决了数据生产过程中的质量问题。
【关键字回复推荐: 数据仓库 数据挖掘 BI 大数据】
延伸阅读
...
推荐文档
...
(输入文档编号即可查看、下载)
422135407 大数据时代数据仓库设计
220847693 如何构建企业数据仓库体系
21493256 数据仓库实施步骤与关键成功因素
6604 淘宝数据仓库架构
6479 数据仓库中的数据管理
6334 数据仓库方法论
(输入文档编号即可查看、下载)
昨日热文
...
网 站: www.ciozj.com
CIO 最有影响力 公众号之一点击下方“阅读原文”每天都有精彩新发现
以上是关于网易考拉数据仓库构建实践的主要内容,如果未能解决你的问题,请参考以下文章