在 H2O 中对新数据使用标准化时

Posted

技术标签:

【中文标题】在 H2O 中对新数据使用标准化时【英文标题】:When using Standardize in H2O on New Data 【发布时间】:2018-01-22 21:17:07 【问题描述】:

我很想知道,在 R 中的 H2O 模型中使用标准化功能时,它在对新数据进行评分时是如何工作的。

我知道,当它对训练集进行标准化时,会根据训练数据的均值和标准差将均值设置为 0,标准差设置为 1,但是它对新数据有什么作用?

是根据训练数据均值和标准差进行标准化,还是根据正在评分的新数据进行标准化?

【问题讨论】:

【参考方案1】:

评分函数将用于标准化训练数据的相同映射应用于测试数据集。这由 H2O 自动处理。

【讨论】:

谢谢 Erin,这是我的猜测,否则系数将无法解释。我想我只需要关注每个功能,这样它们就不会随着时间的推移而改变太多。您还知道是否有可以为我提取这些映射的功能吗?即用于标准化每个特征的平均值和标准偏差,或者我只是编写一个函数来处理原始数据...... mean(x) 和 sd(x)。基本上我想将模型移近我在数据库中的数据,并使用 sql 手动为模型编写函数。 不,这些方法没有通过 H2O 客户端 API 公开(我知道)。您可以将其关闭并手动进行操作(请参阅 GLM 和 DL 中的 standardize arg;其他算法不会扭曲特征),但如果您要使用 H2O 进行建模,最容易让H2O 会自动处理。 我后来发现 h2o 会产生标准化和非标准化的系数。非标准化的可用于非标准化数据!

以上是关于在 H2O 中对新数据使用标准化时的主要内容,如果未能解决你的问题,请参考以下文章

在windows系统中对套接字数据进行io时为啥不可以直接使用文件io相关函数?

您如何在 LibreOffice Calc 中对超过 3 个标准进行排序?

我的 Fetched Results Controller 没有在旧条目中对新条目进行排序

无法在 python 中对 bigquery 运行标准 SQL 查询

linux系统中对新磁盘分区可以使用的命令

您是不是对训练和测试数据分别应用最小最大缩放?