数据仓库和数据湖泊之间有什么区别 | Martech知识点

Posted Marteker技术营销官

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据仓库和数据湖泊之间有什么区别 | Martech知识点相关的知识,希望对你有一定的参考价值。


来源:Martech Today

翻译:Sibyl


如果你问市场营销人员:他们是否喜欢将他们的数据比喻为建筑物或水体之类的东西,会显得有点奇怪。对于市场营销从业者而言,两者之间的差异不仅仅是所选比喻对象的不同。本文介绍了这两种海量数据存储的特点。

 

数据仓库



数字营销人员的工作越来越需要处理大数据,这些数量惊人的原始信息来自社交媒体,客服中心,线上行为跟踪或其他来源等。对于这种海量数据而言,最常见的两种存储方式是「数据仓库」和「数据湖泊」。


虽然,市场营销人员显然需要IT部门帮助做出数据存储的决策,但了解所使用的数据存储有助于市场营销者了解系统的功能和成本。


数据仓库通常是数据进入数据库时就构建好的数据存储空间,数据通常来自操作系统——交易行为,客户档案,人力资源,客户关系管理系统,企业资源规划系统等。在存储到仓库之前,数据通常会被仔细筛选和处理,如果某种信息具有法律约束力且需要可追踪的话,便会被数据库优先选择。


存储性能提供商CondusivTechnologis 的首席执行官 James D'Arezzo表示,仓库可以存储非结构化数据。即使这种数据不是为数据库专门构建的,它也可以作为文件列表输入。但是,就像它们用命名时被比喻的物体的物理结构那样,数据仓库主要用于存储那些在输入时就经过适当排序、过滤和打包的数据。

 

数据湖泊



顾名思义,数据湖比仓库更没有固定形状。它们存储任意来源输入的各种数据,包括视频来源、音频流、面部识别数据、社交媒体帖子等等。

 

「数据湖泊」有时会动用人工智能来标注流入的数据,如命名数据。但数据的格式化、处理和管理通常发生在为某种特定需求做导出的时候,而非在存储之前进行。「数据仓库」通常更容易区分它们接收的数据类型,而「数据湖泊」几乎可以接受所有数据。

 

虽然「数据湖泊」不一定能更快地输入或处理数据,但D'Arezzo告诉说,他们的数据管理员不必去创建接收数据的结构和准入标准。他认为,对于营销人员来说,「数据湖泊」意味着数据源的深度和广度都比「数据仓库」更大。

 

为什么这对营销人员很重要



数据管理系统可以同时使用「仓库」和「湖泊」这两种数据库,也可以将重点放在其中一种类型上。D'Arezzo建议营销人员了解他们存储数据的类型、可用的分析工具,与可处理数据的系统集群、处理成本、所有的性能问题以及数据存储空间是否占用公司的物理空间、共享云、公司私有云,或者某种组合中。


就成本而言,为数据进入「数据仓库」存储之前的准备工作,可能既昂贵又耗时。而且按照过去的传统,「仓库」已将大量数据存储在便宜但速度较慢的磁带上,相比之下,「数据湖泊」通常使用大量的硬盘。

 

D'Arezzo还指出,有时候,营销人员在存储数据之前实际上并不知道他们想要拿这些数据做什么,因此这会有局限性或难以为未知目的做好准备。他说,面部识别数据、社交媒体的帖子或来自物联网设备的数据,可归入优先储存、再事后决定的这一类别。

 

「数据仓库」供应商包括IBM,Google,Microsoft,Teradata,SAP,而几个「数据湖泊」供应商是AWS,Microsoft,Informatica和Teradata。


以上是关于数据仓库和数据湖泊之间有什么区别 | Martech知识点的主要内容,如果未能解决你的问题,请参考以下文章

数据仓库工程师大数据开发工程师BI工程师ETL工程师之间有什么区别?

数据仓库工程师大数据开发工程师BI工程师ETL工程师之间有什么区别?

数据湖与数据仓库之区别

DWH和大数据科学之间的主要区别是啥[重复]

数据湖是什么?数据湖和数据仓库什么关系,数据湖的架构分析

数据仓库DM DW OLAP之间的联系与区别