获取列中值的计数并在图中显示它们的百分比

Posted

技术标签:

【中文标题】获取列中值的计数并在图中显示它们的百分比【英文标题】:Get count of values in a column and show their percentage in a plot 【发布时间】:2019-11-21 09:28:03 【问题描述】:

如何统计某列中值出现的频率,并计算出相对于总数的百分比?

我有一个数据框:

   range
0   G-L
1   M-R
2   G-L
3   M-R
4   A-F
5   S-Z
6   A-F
..   ..
..   ..

df.range.value_counts() 之后我明白了:

A-F    1882
G-L    3096
M-R    3830
S-Z    1017

现在我想获取每个范围相对于总和的百分比,并在图中显示,其中 x 轴获取范围(AF;GL;...),y 轴显示这些范围的百分比。

【问题讨论】:

到目前为止你有什么尝试?你被困在哪里了? 使用df.range.value_counts(normalize=True) 简化您的生活以获得百分比。 【参考方案1】:

假设这是你的DataFrame

data = 'labels': ["A-F", "G-L", "M-R", "S-Z"], 'count':[1882, 3096, 3830, 1017]
df = pd.DataFrame.from_dict(data)

print(df)

  labels  count
0    A-F   1882
1    G-L   3096
2    M-R   3830
3    S-Z   1017

现在你必须计算每一行的百分比:

df['percentage'] = (df['count'] / df['count'].sum()) * 100

print(df)

  labels  count  percentage
0    A-F   1882   19.155216
1    G-L   3096   31.511450
2    M-R   3830   38.982188
3    S-Z   1017   10.351145

然后使用df.plot() 函数并指定其kind(我假设它是条形图)绘制标签与百分比的关系。

df.plot(kind='bar', x='labels', y='percentage')

这将产生以下情节:

编辑: value_counts() 方法返回一个 pd.Series() 对象。要绘制它,您可以运行以下行:

df.range.value_counts(normalize=True).plot(kind='bar')

【讨论】:

我的实际问题是将 df.value_counts() 的输出放入我可以参考的数据框中。如何将输出保存到数据框中,或者有其他方法吗? 还有没有办法让 x 轴上的标签有不同的顺序? @FloatingGoat 指定顺序还是排序?

以上是关于获取列中值的计数并在图中显示它们的百分比的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 OVER() 函数获取列中值的总和?

计算列中值的百分位数

字典列操作计数器

如何使用 SQL 获取计数和百分比?

如何使用与计数不同语句相关的百分比创建附加列

使用条件 groupby 计算分类列的百分比并在 Python 中计数