更新 Azure 数据湖中的数据

Posted

技术标签:

【中文标题】更新 Azure 数据湖中的数据【英文标题】:Update data in Azure Data Lake 【发布时间】:2018-08-27 13:29:17 【问题描述】:

我是 Azure Data Lake 和大数据的新手,如果我的问题看起来很愚蠢,我深表歉意。

我一直在研究 ADL 和 ADLA 以开发冷路径数据存储。我有一个 Azure 流分析查询,它输出到 Power Bi 以进行实时可视化,另一个查询以 .CSV 格式存储数据湖中的数据。

我创建了一个 VS 项目,在其中创建了与 csv 文件相对应的数据库、模式和表,并且一个脚本从 CSV 文件中提取数据并将其复制到表中以赋予我的数据一些结构。

我的问题是,如果数据继续存储在文件夹结构定义数据何时到达的 csv 文件中,我如何使用新数据更新我的表。我是否放弃桌子并重新开始,我认为这不是一个可行的解决方案?

为了创建数据库、架构、提取数据和填充表格,我必须运行一些脚本。当然,当新数据到达时,我无法运行所有脚本。

注意:我想指出,数据库和表都在 ADLA U-SQL 数据库中。

【问题讨论】:

【参考方案1】:

这是一个非常主观的问题。在继续之前,我建议您阅读大量有关“大数据”和“数据湖”的内容。在那次讲座的中间,你可能会找到答案。例如,参见 Data Lake 的树形组织。我的起始参考是:

http://blogs.adatis.co.uk/ustoldfield/post/Shaping-The-Lake-Data-Lake-Framework

https://www.sqlchick.com/entries/2016/7/31/data-lake-use-cases-and-planning

https://www.sqlchick.com/entries/2017/12/30/zones-in-a-data-lake

https://static1.squarespace.com/static/52d1b75de4b0ed895b7e7de9/t/59e3bd8464b05fe9e6bbe969/1508097416856/DesigningAModernDWandDataLake_MelissaCoates.pdf

https://www.gartner.com/binaries/content/assets/events/keywords/catalyst/catus8/2017_planning_guide_for_data_analytics.pdf

【讨论】:

以上是关于更新 Azure 数据湖中的数据的主要内容,如果未能解决你的问题,请参考以下文章

通过scala获取存储在azure数据湖中的文件名列表

更新 Azure 数据湖中的数据

湖中小屋:从数据仓库到数据湖

湖中小屋:从数据仓库到数据湖

湖中小屋:从数据仓库到数据湖

湖中小屋:从数据仓库到数据湖