Azure 机器学习工作室将行追加到数据集

Posted

技术标签:

【中文标题】Azure 机器学习工作室将行追加到数据集【英文标题】:Azure Machine Learning Studio append rows to dataset 【发布时间】:2019-02-02 23:21:06 【问题描述】:

我的“实验”是这样的,

我在“Dataset.csv”中有 10 行(不包括标题),在 导入数据 导入的 CSV 中有 3 行(不包括标题)。两个 CSV 的架构相同。我希望 Add Rows 将 3 行 追加 到 Dataset.csv。

真正的“Dataset.csv”有超过 25,000 行,预计还会增长。因此,使用 Export Data 来生成合并数据集(作为新的 CSV)不是一个可行的解决方案。有什么方法可以为这种情况实现追加

谢谢

更新 1: Dataset.csv 存在于 ML Studios Dataset中。

【问题讨论】:

不太清楚我是否理解。您无法使用“导出数据”生成的 CSV? @Jon 我无法使用 CSV 更新现有数据集。我所说的数据集是指 ML Studios 的数据集(参见更新 1)。 啊,我明白了。我确实找到了this answer,您无法在其中更新已上传到 Azure ML 的数据集,但看起来您可以使用其他名称上传、删除原始数据集并重命名新数据集。我相信this 是它的SDK。 哦,看SDK,可能只用update_from_dataframe方法更新数据集。 我会查看这些链接,但真正的问题是我不能总是删除并重新上传数据集。它现在为 400 MB,预计会增长:) 【参考方案1】:

因此,Python SDK 上有一个 update_from_dataframe 方法,可用于更新已上传到 Azure ML Studio 的数据集。如果您无法使用新的 CSV 并且需要更新现有数据集,那么这应该可以解决问题。

【讨论】:

有什么方法可以通过 Azure Functions 实现相同的功能? 微软的文档,docs.microsoft.com/en-us/azure/machine-learning/… 有趣的是,Azure Functions 并不完全支持 Python。但是,它是in the works。 AF 版本 2 将不再支持 Python。但是你有没有遇到过 C# 中可以将行附加到数据集的任何库(类似于 Python SDK 的做法)? 由于this repo,我认为它将在 v2 中支持 Python。它仍处于开发初期,因此有关支持它的文档可能尚未更新。如果他们不支持 Python 那就太奇怪了 :)

以上是关于Azure 机器学习工作室将行追加到数据集的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Azure 机器学习中使用历史数据集进行训练和预期数据集作为预测的输入

无法使用“加入数据”将多个数据集合并为一个使用 Azure 机器学习工作室设计器

使用 openxml 将行追加到 azure blob 存储中的 excel

将数据从流分析提取到 Azure 机器学习

机器学习:机器学习工作流程

如何将 Pycharm 和 git 与 azure 机器学习服务(工作区)集成