在 H2O 中对新数据使用标准化时

Posted 2023-02-23

技术标签:

【中文标题】在 H2O 中对新数据使用标准化时【英文标题】：When using Standardize in H2O on New Data 【发布时间】：2018-01-22 21:17:07 【问题描述】：

我很想知道，在 R 中的 H2O 模型中使用标准化功能时，它在对新数据进行评分时是如何工作的。

我知道，当它对训练集进行标准化时，会根据训练数据的均值和标准差将均值设置为 0，标准差设置为 1，但是它对新数据有什么作用？

是根据训练数据均值和标准差进行标准化，还是根据正在评分的新数据进行标准化？

【问题讨论】：

【参考方案1】：

评分函数将用于标准化训练数据的相同映射应用于测试数据集。这由 H2O 自动处理。

【讨论】：

谢谢 Erin，这是我的猜测，否则系数将无法解释。我想我只需要关注每个功能，这样它们就不会随着时间的推移而改变太多。您还知道是否有可以为我提取这些映射的功能吗？即用于标准化每个特征的平均值和标准偏差，或者我只是编写一个函数来处理原始数据...... mean(x) 和 sd(x)。基本上我想将模型移近我在数据库中的数据，并使用 sql 手动为模型编写函数。不，这些方法没有通过 H2O 客户端 API 公开（我知道）。您可以将其关闭并手动进行操作（请参阅 GLM 和 DL 中的 standardize arg；其他算法不会扭曲特征），但如果您要使用 H2O 进行建模，最容易让H2O 会自动处理。我后来发现 h2o 会产生标准化和非标准化的系数。非标准化的可用于非标准化数据！

以上是关于在 H2O 中对新数据使用标准化时的主要内容，如果未能解决你的问题，请参考以下文章

在windows系统中对套接字数据进行io时为啥不可以直接使用文件io相关函数？

您如何在 LibreOffice Calc 中对超过 3 个标准进行排序？

我的 Fetched Results Controller 没有在旧条目中对新条目进行排序

无法在 python 中对 bigquery 运行标准 SQL 查询

linux系统中对新磁盘分区可以使用的命令

您是不是对训练和测试数据分别应用最小最大缩放？