从真实数据中生成合成数据(用于回归问题)

Posted

技术标签:

【中文标题】从真实数据中生成合成数据(用于回归问题)【英文标题】:Generating synthetic data out of real data (For Regression Problem) 【发布时间】:2020-09-19 17:07:01 【问题描述】:

我的数据集看起来像图片中提供的信息。这是一个回归问题,我必须预测“LOS”(最后一列)。我的数据集由大约 2000 个样本或行组成。我很想从真实数据中创建更多行(合成数据)来改进我的模型结果。

我发现它对分类任务很容易,但对回归案例有困难。

python 环境中的任何帮助都会非常有帮助。

提前致谢

【问题讨论】:

这可能有用,towardsdatascience.com/…... 我相信它的重点分类问题。 【参考方案1】:

你可以使用SMOGN

来自Documentation:

用于高斯噪声回归的合成少数过采样技术 (SMOGN) 的 Python 实现。使用传统插值法以及引入高斯噪声 (SMOTER-GN) 进行回归合成少数过采样技术 (SMOTER)。

但是在实现之前先看看here。

【讨论】:

绝对赞成过采样。我没有使用过这个库,但该技术是有效的。 它说合成少数过采样技术以及三种不同的场景。不幸的是,两种情况下对数据进行了下采样,在一种情况下对数据进行上采样对我不起作用。但是,它可能适用于不同的其他应用程序。我希望那里没有其他人。

以上是关于从真实数据中生成合成数据(用于回归问题)的主要内容,如果未能解决你的问题,请参考以下文章

JAVA中生成菜单树结构常用方法总结

JAVA中生成菜单树结构常用方法总结

如何在 Python 中生成具有指定均值、方差、偏度、峰度的数据?

如何从数据库表中生成xml文件?

如何在套索回归或任何其他方法中生成系数 >0?

使用本体从原始数据中生成语义完整信息