使用 R 清理大数据中不必要的变量
Posted
技术标签:
【中文标题】使用 R 清理大数据中不必要的变量【英文标题】:Cleaning unnecessary variable in big data by using R 【发布时间】:2018-10-03 08:47:36 【问题描述】:我有一个包含 163 列(变量)和 199566 行(数据)的数据集。 那么如何消除冗余数据? 我可以通过使用正态分布来做到这一点吗?
【问题讨论】:
我们的信息太少了。你尝试了什么,有错误吗?你应该看看这里:stats.stackexchange.com/a/6800 欢迎来到 ***。为了提出更好的问题,请阅读How to ask a good question 和Minimal, Complete, and Verifiable Example 和How to make a great R reproducible example。 举一个数据例子和你到目前为止做了什么 “规范化”表示“消除冗余数据”。但“冗余”视情况而定。在这种情况下,是什么让数据“冗余”?什么是的情况?你想要完成什么以及你是如何完成它的? 【参考方案1】:也许可以试试dimensionality reduction methods,例如PCA。它将帮助您减少列的数量,就好像我正确理解是您想要实现的那样。
如果您以前没有使用过它们,您可能需要详细了解这些技术的具体作用,但以上内容将帮助您入门。
【讨论】:
以上是关于使用 R 清理大数据中不必要的变量的主要内容,如果未能解决你的问题,请参考以下文章