从真实数据中生成合成数据(用于回归问题)
Posted
技术标签:
【中文标题】从真实数据中生成合成数据(用于回归问题)【英文标题】:Generating synthetic data out of real data (For Regression Problem) 【发布时间】:2020-09-19 17:07:01 【问题描述】:我的数据集看起来像图片中提供的信息。这是一个回归问题,我必须预测“LOS”(最后一列)。我的数据集由大约 2000 个样本或行组成。我很想从真实数据中创建更多行(合成数据)来改进我的模型结果。
我发现它对分类任务很容易,但对回归案例有困难。
python 环境中的任何帮助都会非常有帮助。
提前致谢
【问题讨论】:
这可能有用,towardsdatascience.com/…... 我相信它的重点分类问题。 【参考方案1】:你可以使用SMOGN
来自Documentation:
用于高斯噪声回归的合成少数过采样技术 (SMOGN) 的 Python 实现。使用传统插值法以及引入高斯噪声 (SMOTER-GN) 进行回归合成少数过采样技术 (SMOTER)。
但是在实现之前先看看here。
【讨论】:
绝对赞成过采样。我没有使用过这个库,但该技术是有效的。 它说合成少数过采样技术以及三种不同的场景。不幸的是,两种情况下对数据进行了下采样,在一种情况下对数据进行上采样对我不起作用。但是,它可能适用于不同的其他应用程序。我希望那里没有其他人。以上是关于从真实数据中生成合成数据(用于回归问题)的主要内容,如果未能解决你的问题,请参考以下文章