如何使用来自不同位置的数据（分类变量）制作统计模型？

Posted 2023-03-16

技术标签:

【中文标题】如何使用来自不同位置的数据（分类变量）制作统计模型？【英文标题】：How to make a statistical model with data from different locations (categorical variables)? 【发布时间】：2021-12-31 01:42:25 【问题描述】：

我正在帮助我的女朋友为她的硕士论文项目（Env. Sci）制作模型。数据集具有以下列：场地距离(m) 深度(cm) pH %N %C C:N

她测量了来自 5 个不同沼泽（湿地）的土壤/泥炭样品的 pH 值和总碳和总氮。

'距离 (m)' 是距非随机起点（湿区）的距离，在某些站点中它也会倒退为负值。 C:N 由 %N 和 %C 计算得出，Depth 为取土样的深度。

我们应该如何对数据建模？我们怀疑所有变量之间存在关系..

是否应该按站点对数据进行分组，然后做一个回归模型，然后与其他站点进行比较？或者如何根据数值处理“站点”（分类变量）？

【问题讨论】：

【参考方案1】：

您可以使用很多技术来解决这个问题。 One-Hot 编码就是其中之一。实际上，这取决于您的数据。我强烈建议您阅读此页面以确定最佳选择：https://www.datacamp.com/community/tutorials/categorical-data 此外，您不应该自己选择您的特征。（我们怀疑所有变量之间存在关系..->您不必确定哪些特征是最相关的）。我们可以使用一些方法。看一下这个 https://www.analyticsvidhya.com/blog/2020/10/feature-selection-techniques-in-machine-learning/

https://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2

【讨论】：

以上是关于如何使用来自不同位置的数据（分类变量）制作统计模型？的主要内容，如果未能解决你的问题，请参考以下文章

如何使用不同尺寸的多个分类输入变量为随机森林回归模型？

使用 sklearn 进行音乐流派分类：如何准确评估不同的模型

Python计算训练数据集（测试集）中某个分类变量阴性(阳性)标签样本的不同水平（level）或者分类值的统计个数以及比例

第三章描述统计学Ⅱ：数值方法

统计学习方法五逻辑回归分类

仅分类神经网络的新数据