如何从 csv 文件中删除重复数据？

Posted 2023-03-08

技术标签:

【中文标题】如何从 csv 文件中删除重复数据？【英文标题】：How to remove the duplicate data from csv file? 【发布时间】：2017-05-08 05:32:09 【问题描述】：

我有 2016 年棒球成绩的数据。

现在，我想删除得分相同的列。

也就是说，我想删除 $team1_score 和 $team2_score 中具有相同值的列。

如何使用 r 中的函数？

我只是尝试使用下面的代码，但效果不佳。

Baseball2 <- Baseball[!duplicated(Baseball$team1_score)]

请帮帮我...！！

【问题讨论】：

出了什么问题... 为什么今天每个人都在发布数据图像？拜托，Hailey，发布数据，而不是它的图像。请阅读（或重读）关于 reproducible questions 的内容，尤其是它提供了在您的问题中包含可用数据选项的区域。 ... 在这个问题中，您需要确定预期的输出应该是什么。删除一整列对我来说没有意义。而且由于这些数据都没有显示团队/分数的重复，因此似乎不足以证明您的观点。我不确定问题是否与处理重复数据有关。建议去掉duplicates标签，修改题名。我从来没有上传过任何实际的文件，所以我刚刚捕获并上传了图像。有很多像上图这样的数据，并且有一些分数与上面的数据并列。我只是想删除有 tie score 的列。 【参考方案1】：

这里有一个简单的方法来删除带有 tie-score 的行：

(dat <- data.frame(Team1_Score= c(1,2,3), Team2_Score=c(2,3,3)))

  Team1_Score Team2_Score
1           1           2
2           2           3
3           3           3

使用逻辑测试找出哪一行得分相同：

tie <- dat$Team1_Score == dat$Team2_Score
tie
[1] FALSE FALSE  TRUE

使用此结果选择不平局的行：

dat[!tie, ]

  Team1_Score Team2_Score
1           1           2
2           2           3

【讨论】：

【参考方案2】：

我了解您不想删除重复项，但需要对数据帧进行子集化以丢弃绑定匹配项。

使用 data.table 的一个非常简单的选项：

library(data.table)
Baseball2 <- data.table(Baseball)
Baseball2 <- Baseball2[Team1_Score != Team2_Score,]

【讨论】：

以上是关于如何从 csv 文件中删除重复数据？的主要内容，如果未能解决你的问题，请参考以下文章

从 HDFS 中的数据文件夹在配置单元中创建表 - 删除重复的行

从php中的多维数组中删除重复值

从Python中的csv文件中删除第一列[重复]

如何将 CSV 文件中的数据加载到 numpy 数组中[重复]

AWS Glue 和重复数据删除增量 CSV 文件

使用python脚本从csv文件中删除重复的行