如何使用来自不同位置的数据(分类变量)制作统计模型?

Posted

技术标签:

【中文标题】如何使用来自不同位置的数据(分类变量)制作统计模型?【英文标题】:How to make a statistical model with data from different locations (categorical variables)? 【发布时间】:2021-12-31 01:42:25 【问题描述】:

我正在帮助我的女朋友为她的硕士论文项目(Env. Sci)制作模型。 数据集具有以下列: 场地距离(m) 深度(cm) pH %N %C C:N

她测量了来自 5 个不同沼泽(湿地)的土壤/泥炭样品的 pH 值和总碳和总氮。

'距离 (m)' 是距非随机起点(湿区)的距离,在某些站点中它也会倒退为负值。 C:N 由 %N 和 %C 计算得出,Depth 为取土样的深度。

我们应该如何对数据建模?我们怀疑所有变量之间存在关系..

是否应该按站点对数据进行分组,然后做一个回归模型,然后与其他站点进行比较?或者如何根据数值处理“站点”(分类变量)?

【问题讨论】:

【参考方案1】:

您可以使用很多技术来解决这个问题。 One-Hot 编码就是其中之一。实际上,这取决于您的数据。我强烈建议您阅读此页面以确定最佳选择:https://www.datacamp.com/community/tutorials/categorical-data 此外,您不应该自己选择您的特征。(我们怀疑所有变量之间存在关系..->您不必确定哪些特征是最相关的)。我们可以使用一些方法。看一下这个 https://www.analyticsvidhya.com/blog/2020/10/feature-selection-techniques-in-machine-learning/

https://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2

【讨论】:

以上是关于如何使用来自不同位置的数据(分类变量)制作统计模型?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用不同尺寸的多个分类输入变量为随机森林回归模型?

使用 sklearn 进行音乐流派分类:如何准确评估不同的模型

Python计算训练数据集(测试集)中某个分类变量阴性(阳性)标签样本的不同水平(level)或者分类值的统计个数以及比例

第三章 描述统计学Ⅱ:数值方法

统计学习方法五 逻辑回归分类

仅分类神经网络的新数据