如何使用来自不同位置的数据(分类变量)制作统计模型?
Posted
技术标签:
【中文标题】如何使用来自不同位置的数据(分类变量)制作统计模型?【英文标题】:How to make a statistical model with data from different locations (categorical variables)? 【发布时间】:2021-12-31 01:42:25 【问题描述】:我正在帮助我的女朋友为她的硕士论文项目(Env. Sci)制作模型。 数据集具有以下列: 场地距离(m) 深度(cm) pH %N %C C:N
她测量了来自 5 个不同沼泽(湿地)的土壤/泥炭样品的 pH 值和总碳和总氮。
'距离 (m)' 是距非随机起点(湿区)的距离,在某些站点中它也会倒退为负值。 C:N 由 %N 和 %C 计算得出,Depth 为取土样的深度。
我们应该如何对数据建模?我们怀疑所有变量之间存在关系..
是否应该按站点对数据进行分组,然后做一个回归模型,然后与其他站点进行比较?或者如何根据数值处理“站点”(分类变量)?
【问题讨论】:
【参考方案1】:您可以使用很多技术来解决这个问题。 One-Hot 编码就是其中之一。实际上,这取决于您的数据。我强烈建议您阅读此页面以确定最佳选择:https://www.datacamp.com/community/tutorials/categorical-data 此外,您不应该自己选择您的特征。(我们怀疑所有变量之间存在关系..->您不必确定哪些特征是最相关的)。我们可以使用一些方法。看一下这个 https://www.analyticsvidhya.com/blog/2020/10/feature-selection-techniques-in-machine-learning/
https://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2
【讨论】:
以上是关于如何使用来自不同位置的数据(分类变量)制作统计模型?的主要内容,如果未能解决你的问题,请参考以下文章
使用 sklearn 进行音乐流派分类:如何准确评估不同的模型
Python计算训练数据集(测试集)中某个分类变量阴性(阳性)标签样本的不同水平(level)或者分类值的统计个数以及比例