根据更新的数据集自动重新训练分类模型

Posted

技术标签:

【中文标题】根据更新的数据集自动重新训练分类模型【英文标题】:Retrain the classification model automatically based on updated data set 【发布时间】:2019-07-14 22:05:19 【问题描述】:

我们在 Azure ML Studio 中创建了一个实验,以根据系统数据和用户数据预测一些调度活动。系统数据包括 CPU 时间、堆使用率和其他系统参数,而用户数据有用户的活动会话和一些用户特定的数据。 我们的实验运行良好,返回的结果与我们预期的非常相似,但我们正在努力解决以下问题:-

1) 我们的实验没有考虑更新数据来训练其模型。

2) 每次我们都需要手动上传数据并重新训练模型。

我想知道是否真的可以使用一些 Web 服务或使用 Azure DB 将实时数据提供给 azure 实验。我们正在尝试更新我们在 Azure 存储中创建的 CSV 文件中的数据。这可能会解决我们的第一个查询。

现在,应该考虑使用这些更新的数据来定期自动训练模型。

如果有人能帮我们解决一下就好了?

注意:我们使用在 Azure 工作室帮助下创建的 Web 服务来使用我们的模型。

【问题讨论】:

【参考方案1】:

第 1 步:使用 Azure ML Studio 创建 2 个 Web 服务(一个用于训练模型,一个用于预测模型)

第 2 步:使用链接在 Azure ML Studio 上为每个 Web 服务管理端点的 Web 服务创建端点

第 3 步:在 Azure 数据工厂/查找 Azure ML(在计算选项卡上)创建 2 个新连接,并复制您将在终结点配置中的“使用”选项卡下找到的终结点密钥和 API 密钥(您在step 2) Endpoint Key = Batch Requests Key and API Key = Primary Key

为训练模型端点设置禁用更新资源 为预测模型端点设置 Enable Update Resource(Update Resource End Point = Patch key)

第 4 步:创建一个包含 2 个活动(ML Batch Execution 和 ML Update Resource)的管道 使用禁用更新资源的连接为 ML 批处理执行设置 AML 链接服务

使用具有启用更新资源的连接为 ML 更新资源设置 AML 链接服务

第 5 步:设置 Web 服务输入和输出

【讨论】:

【参考方案2】:

您需要使用 Azure 数据工厂重新训练 ML 模型。

您需要使用 ML Batch Execution 和 ML Update Resource 活动创建管道,并调用您的 ML 模型,您需要在 Web 服务上配置端点。

这里有一些链接可以帮助你:

https://docs.microsoft.com/en-us/azure/data-factory/transform-data-using-machine-learning

https://docs.microsoft.com/en-us/azure/data-factory/update-machine-learning-models

【讨论】:

我已经检查了上述链接,但似乎提到的解决方案和步骤现在已经过时了。参考:github.com/MicrosoftDocs/azure-docs/issues/6976。您能否详细说明我们可以遵循的基本步骤。我将尝试一些自定义活动。谢谢。

以上是关于根据更新的数据集自动重新训练分类模型的主要内容,如果未能解决你的问题,请参考以下文章

垃圾邮件分类

朴素贝叶斯应用:垃圾邮件分类

基于paddlex图像分类模型训练:图像分类数据集切分:文件夹转化为imagenet训练格式

如何在 Sklearn 的随机森林分类器中将训练模型用于另一个数据集?

朴素贝叶斯应用:垃圾邮件分类

朴素贝叶斯应用:垃圾邮件分类