我可以使用 R 查看表中每列中出现的值的频率吗？

Posted 2023-05-08

技术标签:

【中文标题】我可以使用 R 查看表中每列中出现的值的频率吗？【英文标题】：Can I use R to look at the frequency of values appearing in each column in a table? 【发布时间】：2015-10-12 16:23:41 【问题描述】：

我是 R 的初学者，我想知道是否可以使用它来全面了解我的数据。具体来说，我在包含 650 列的数据库中有一个表。我想知道每列的不同值是什么，以及列中出现的每个值有多少。

例如，如果我的桌子看起来像这样：

ID   DATA1    DATA2    DATA3    DATA4
1    A        42       FORD     QQ
2    B        42       ACURA    66
3    C        (null)   (null)   88
4    A        (null)   FORD     QQ

我想知道以下内容：

Column DATA1 has the following distribution:
    Value    Count
    A        2
    B        1
    C        1

Column DATA2 has the following distribution:
    Value    Count
    (null)   2
    42       2

...

这样我就可以确定表中大部分行的哪些列是（null）。

该表位于 netezza 数据库中，我已经弄清楚如何连接到该数据库并针对该数据库运行查询。我的问题是如何使用 R 运行这种类型的分析。

如果有一种方法可以输出可视化效果，例如在堆积条形图中，每列都有一个条形图，堆栈的每个“片段”代表一个值，那就更好了。

【问题讨论】：

【参考方案1】：

表格可以通过整形来完成

library(dplyr)
library(tidyr)

data %>%
  gather(variable, value, -ID) %>%
  group_by(variable, value) %>%
  summarize(frequency = n() )

【讨论】：

以上是关于我可以使用 R 查看表中每列中出现的值的频率吗？的主要内容，如果未能解决你的问题，请参考以下文章