根据更新的数据集自动重新训练分类模型
Posted
技术标签:
【中文标题】根据更新的数据集自动重新训练分类模型【英文标题】:Retrain the classification model automatically based on updated data set 【发布时间】:2019-07-14 22:05:19 【问题描述】:我们在 Azure ML Studio 中创建了一个实验,以根据系统数据和用户数据预测一些调度活动。系统数据包括 CPU 时间、堆使用率和其他系统参数,而用户数据有用户的活动会话和一些用户特定的数据。 我们的实验运行良好,返回的结果与我们预期的非常相似,但我们正在努力解决以下问题:-
1) 我们的实验没有考虑更新数据来训练其模型。
2) 每次我们都需要手动上传数据并重新训练模型。
我想知道是否真的可以使用一些 Web 服务或使用 Azure DB 将实时数据提供给 azure 实验。我们正在尝试更新我们在 Azure 存储中创建的 CSV 文件中的数据。这可能会解决我们的第一个查询。
现在,应该考虑使用这些更新的数据来定期自动训练模型。
如果有人能帮我们解决一下就好了?
注意:我们使用在 Azure 工作室帮助下创建的 Web 服务来使用我们的模型。
【问题讨论】:
【参考方案1】:第 1 步:使用 Azure ML Studio 创建 2 个 Web 服务(一个用于训练模型,一个用于预测模型)
第 2 步:使用链接在 Azure ML Studio 上为每个 Web 服务管理端点的 Web 服务创建端点
第 3 步:在 Azure 数据工厂/查找 Azure ML(在计算选项卡上)创建 2 个新连接,并复制您将在终结点配置中的“使用”选项卡下找到的终结点密钥和 API 密钥(您在step 2) Endpoint Key = Batch Requests Key and API Key = Primary Key
为训练模型端点设置禁用更新资源 为预测模型端点设置 Enable Update Resource(Update Resource End Point = Patch key)
第 4 步:创建一个包含 2 个活动(ML Batch Execution 和 ML Update Resource)的管道 使用禁用更新资源的连接为 ML 批处理执行设置 AML 链接服务
使用具有启用更新资源的连接为 ML 更新资源设置 AML 链接服务
第 5 步:设置 Web 服务输入和输出
【讨论】:
【参考方案2】:您需要使用 Azure 数据工厂重新训练 ML 模型。
您需要使用 ML Batch Execution 和 ML Update Resource 活动创建管道,并调用您的 ML 模型,您需要在 Web 服务上配置端点。
这里有一些链接可以帮助你:
https://docs.microsoft.com/en-us/azure/data-factory/transform-data-using-machine-learning
https://docs.microsoft.com/en-us/azure/data-factory/update-machine-learning-models
【讨论】:
我已经检查了上述链接,但似乎提到的解决方案和步骤现在已经过时了。参考:github.com/MicrosoftDocs/azure-docs/issues/6976。您能否详细说明我们可以遵循的基本步骤。我将尝试一些自定义活动。谢谢。以上是关于根据更新的数据集自动重新训练分类模型的主要内容,如果未能解决你的问题,请参考以下文章
基于paddlex图像分类模型训练:图像分类数据集切分:文件夹转化为imagenet训练格式