使用 R 清理大数据中不必要的变量

Posted

技术标签:

【中文标题】使用 R 清理大数据中不必要的变量【英文标题】:Cleaning unnecessary variable in big data by using R 【发布时间】:2018-10-03 08:47:36 【问题描述】:

我有一个包含 163 列(变量)和 199566 行(数据)的数据集。 那么如何消除冗余数据? 我可以通过使用正态分布来做到这一点吗?

【问题讨论】:

我们的信息太少了。你尝试了什么,有错误吗?你应该看看这里:stats.stackexchange.com/a/6800 欢迎来到 ***。为了提出更好的问题,请阅读How to ask a good question 和Minimal, Complete, and Verifiable Example 和How to make a great R reproducible example。 举一个数据例子和你到目前为止做了什么 “规范化”表示“消除冗余数据”。但“冗余”视情况而定。在这种情况下,是什么让数据“冗余”?什么的情况?你想要完成什么以及你是如何完成它的? 【参考方案1】:

也许可以试试dimensionality reduction methods,例如PCA。它将帮助您减少列的数量,就好像我正确理解是您想要实现的那样。

如果您以前没有使用过它们,您可能需要详细了解这些技术的具体作用,但以上内容将帮助您入门。

【讨论】:

以上是关于使用 R 清理大数据中不必要的变量的主要内容,如果未能解决你的问题,请参考以下文章

R语言可以处理大的数据吗

R语言 | json数据是个大难题!

R语言游戏数据分析与挖掘:为啥要对游戏进行分析

非常大的表和昂贵的删除操作的数据库优化策略

大数据之Hadoop(MapReduce):数据清洗(ETL)

莫让“挖矿”借大数据之名浑水摸鱼 | 新京报社论