使用 featuretools / DFS 更新数据
Posted
技术标签:
【中文标题】使用 featuretools / DFS 更新数据【英文标题】:Data updates with featuretools / DFS 【发布时间】:2018-08-19 02:39:43 【问题描述】:在 ML 2.0 和 AI PM 论文中,它暗示更新数据(可能是现有数据或新数据)是动态(实时)发生的。例如,在 AI PM 论文中,它说:“相反,我们展示了一个在现实世界中工作的完整系统,可以持续更新实时数据。”
您的意思是更新数据会自动预处理成适当的特征向量并包含在下一个模型重新训练周期中吗?或者,模型是否正在动态更新?
【问题讨论】:
【参考方案1】:在这种情况下,数据更新意味着新数据会自动附加到现有数据中,然后转换为新的特征向量。这些特征向量可用于重新训练模型或使用现有模型进行评分。
自动化是对新数据的特征工程可能依赖于历史数据来计算,因此 Featuretools 中的 API 旨在尽可能地从开发人员那里抽象出来。这是使用Entityset.concat(..)
方法实现的。
【讨论】:
“这些特征向量可用于重新训练模型或使用现有模型进行评分。” “...分数使用现有模型”似乎是说当前模型是使用更新的特征向量动态更新的? “score using an existing model”是一种不更新当前模型而只使用该模型对新特征向量进行预测的路径以上是关于使用 featuretools / DFS 更新数据的主要内容,如果未能解决你的问题,请参考以下文章
在 PythonScriptStep 中使用 Dask 集群