Azure Data Lake 是不是仅临时存储用于分析的数据?
Posted
技术标签:
【中文标题】Azure Data Lake 是不是仅临时存储用于分析的数据?【英文标题】:Does Azure Data Lake Store Data for Analytics on temporarily purpose only?Azure Data Lake 是否仅临时存储用于分析的数据? 【发布时间】:2017-04-14 07:57:32 【问题描述】:我正在学习 MVA“介绍 Azure Data Lake”的课程,直到模块 2,在每个视频中都突出显示,我们只为执行工作所花费的时间付费。
这让我感到困惑,如果它倾向于或意味着将我们所有交易历史数据中的数据永久存储在其中,或者它只是用于暂时分析其中的交易部分,并在使用任何分析语言对其进行计算之后即 USQL、HIVE、PIG 并在完成后删除临时分析源。
换句话说:
它是创建一个临时表还是临时表并分析其上的数据并在 stats 结果后删除该表。 或者 数据湖倾向于或打算存储数据以供将来使用,如仓库,并根据业务需求对其进行分析 并且不会为该存储花费太多的历史成本,而只是用于分析它的处理时间。
问候 哈西姆兰
【问题讨论】:
提供我作为 cmets 的理解并不完全确定(如果我得到纠正会很高兴) - 数据始终存储在 ADL 中,我们在 ADLA 中创建和运行作业。作业从 ADL 中获取数据(我们提到了我们需要从中获取数据的文件路径)。请记住,他们将 ADLA 称为Job as a Service
。
所以这意味着存储是有成本的,最终取决于使用了多少集群或空间?
【参考方案1】:
您加载到 ADL 存储帐户或使用 U-SQL 或 Hive 作业写入的数据(例如,使用 OUTPUT 语句或插入表中)将存储在 ADL 存储帐户中并使用空间。您的 ADLS 帐户中的空间不受任何集群大小的限制,并且会随着您的需求增加而增长。
【讨论】:
以上是关于Azure Data Lake 是不是仅临时存储用于分析的数据?的主要内容,如果未能解决你的问题,请参考以下文章
将存储安全地连接到 Azure Data Lake Analytics 或数据工厂
需要使用 Azure 流分析和 IoT Hub 将数据存储到 Azure Data Lake Store:数据必须按 4MB 缓冲区存储
使用 Databricks 中的原始 SQL 直接查询存储在 Azure Data Lake 中的 avro 数据文件
使用 Azure Web API 应用程序中的 C# 从 Azure Data Lake 查询 parquet 数据