在 azure ML studio 中安装数据湖存储

Posted

技术标签:

【中文标题】在 azure ML studio 中安装数据湖存储【英文标题】:Mount a datalake storage in azure ML studio 【发布时间】:2021-10-26 21:10:33 【问题描述】:

我从 Azure ML Studio 上的数据湖文件夹创建了一个文件数据集,目前我可以使用以下代码将数据从数据集下载到计算实例:

subscription_id = 'xxx'
resource_group = 'luisdatapipelinetest'
workspace_name = 'ml-pipelines'
workspace = Workspace(subscription_id, resource_group, workspace_name)
dataset = Dataset.get_by_name(workspace, name='files_test')
path = "/mnt/batch/tasks/shared/LS_root/mounts/clusters/demo1231/code/Users/luis.rramirez/test/"
dataset.download(target_path=path, overwrite=True)

这样我就可以从笔记本中访问文件了。

但是将数据湖中的数据复制到计算实例效率不高,如何才能将数据湖目录挂载到vm中,而不是每次都复制数据呢?

【问题讨论】:

【参考方案1】:

将 ADLS2 安装到 AML,以便您可以将文件直接保存到 mountPoint。 Here 是注册存储的示例,here 显示如何挂载注册的数据存储。

【讨论】:

以上是关于在 azure ML studio 中安装数据湖存储的主要内容,如果未能解决你的问题,请参考以下文章

XML 到 Azure ML Studio

在 Microsoft Azure ML Studio 数据集中选择列会改变变量类型

Azure ML Studio 编辑元数据不起作用

Azure ML Studio 中的数据管理网关

如何防止 Azure ML Studio 在导入数据集时将特征列转换为 DateTime

在 Azure ML Studio 中,评分模型不会从 R 模型返回预测值