使用 R 清理大数据中不必要的变量

Posted 2023-03-12

技术标签:

【中文标题】使用 R 清理大数据中不必要的变量【英文标题】：Cleaning unnecessary variable in big data by using R 【发布时间】：2018-10-03 08:47:36 【问题描述】：

我有一个包含 163 列（变量）和 199566 行（数据）的数据集。那么如何消除冗余数据？我可以通过使用正态分布来做到这一点吗？

【问题讨论】：

我们的信息太少了。你尝试了什么，有错误吗？你应该看看这里：stats.stackexchange.com/a/6800 欢迎来到 ***。为了提出更好的问题，请阅读How to ask a good question 和Minimal, Complete, and Verifiable Example 和How to make a great R reproducible example。举一个数据例子和你到目前为止做了什么 “规范化”表示“消除冗余数据”。但“冗余”视情况而定。在这种情况下，是什么让数据“冗余”？什么是的情况？你想要完成什么以及你是如何完成它的？ 【参考方案1】：

也许可以试试dimensionality reduction methods，例如PCA。它将帮助您减少列的数量，就好像我正确理解是您想要实现的那样。

如果您以前没有使用过它们，您可能需要详细了解这些技术的具体作用，但以上内容将帮助您入门。

【讨论】：

以上是关于使用 R 清理大数据中不必要的变量的主要内容，如果未能解决你的问题，请参考以下文章

R语言可以处理大的数据吗

R语言 | json数据是个大难题！

R语言游戏数据分析与挖掘：为啥要对游戏进行分析

非常大的表和昂贵的删除操作的数据库优化策略

大数据之Hadoop(MapReduce)：数据清洗（ETL）

莫让“挖矿”借大数据之名浑水摸鱼 | 新京报社论