Pandas 中的多个直方图

Posted

技术标签:

【中文标题】Pandas 中的多个直方图【英文标题】:Multiple histograms in Pandas 【发布时间】:2014-10-21 17:58:22 【问题描述】:

我想创建以下直方图(见下图),取自“Think Stats”一书。但是,我不能让他们在同一个情节上。每个 DataFrame 都有自己的子图。

我有以下代码:

import nsfg
import matplotlib.pyplot as plt
df = nsfg.ReadFemPreg()
preg = nsfg.ReadFemPreg()
live = preg[preg.outcome == 1]

first = live[live.birthord == 1]
others = live[live.birthord != 1]

#fig = plt.figure()
#ax1 = fig.add_subplot(111)

first.hist(column = 'prglngth', bins = 40, color = 'teal', \
           alpha = 0.5)
others.hist(column = 'prglngth', bins = 40, color = 'blue', \
            alpha = 0.5)
plt.show()

当我按照以下建议使用 ax = ax1 时,上面的代码不起作用:pandas multiple plots not working as hists,这个示例也不能满足我的需要:Overlaying multiple histograms using pandas。当我按原样使用代码时,它会创建两个带有直方图的窗口。任何想法如何组合它们?

以下是我希望最终图形看起来如何的示例:

【问题讨论】:

【参考方案1】:

一个快速的解决方案是使用pandas 中的melt(),然后使用seaborn 进行绘图。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# make dataframe
df = pd.DataFrame(np.random.normal(size=(200,2)), columns=['A', 'B'])

# plot melted dataframe in a single command
sns.histplot(df.melt(), x='value', hue='variable',
             multiple='dodge', shrink=.75, bins=20);

设置multiple='dodge' 使条形图并排,设置shrink=.75 使这对条形图占据整个箱子的 3/4。

为了帮助理解 melt() 做了什么,这些是数据帧 dfdf.melt()

【讨论】:

【参考方案2】:

这可以简洁地完成

plt.hist([First, Other], bins = 40, color =('teal','blue'), label=("First", "Other"))
plt.legend(loc='best')

请注意,随着 bin 数量的增加,它可能会成为视觉负担。

【讨论】:

我想相信...但这与这里的其他几个答案存在相同的问题:直方图彼此重叠,而不是交错。【参考方案3】:

你制作了两个数据框和一个 matplotlib 轴

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

df1 = pd.DataFrame(
    'data1': np.random.randn(10),
    'data2': np.random.randn(10)
)

df2 = df1.copy()

fig, ax = plt.subplots()
df1.hist(column=['data1'], ax=ax)
df2.hist(column=['data2'], ax=ax)

【讨论】:

有没有办法让列并排显示而不是重叠? 这不会像问题中显示的那样创建分组条形直方图。这实际上是 lin_bug 已经提供的答案的不必要的复杂版本。【参考方案4】:

如果有人想在另一个直方图上绘制一个直方图(而不是交替条形图),您只需在要绘制的系列上连续调用 .hist()

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import pandas


np.random.seed(0)
df = pandas.DataFrame(np.random.normal(size=(37,2)), columns=['A', 'B'])

df['A'].hist()
df['B'].hist()

这给了你:

请注意,您调用.hist() 的顺序很重要(第一个在后面)

【讨论】:

你知道如何标记它们吗? 我怎样才能让它不这样叠加? alpha 添加到第二个情节使两者都可见,例如df['B'].hist(alpha=0.5) 如何同时处理多个维度(列)? 警告,这不会对两个图使用相同的 bin。由于直方图的形状可能对 bin 非常敏感,因此可能会给您的数据集比较方式留下错误印象。【参考方案5】:

这里是 sn-p,在我的例子中,我已经明确指定了 bin 和 range,因为作为本书的作者,我没有处理异常值删除。

fig, ax = plt.subplots()
ax.hist([first.prglngth, others.prglngth], 10, (27, 50), histtype="bar", label=("First", "Other"))
ax.set_title("Histogram")
ax.legend()

参考 Matplotlib 不同大小的多组图example。

【讨论】:

【参考方案6】:

来自熊猫网站 (http://pandas.pydata.org/pandas-docs/stable/visualization.html#visualization-hist):

df4 = pd.DataFrame('a': np.random.randn(1000) + 1, 'b': np.random.randn(1000),
                    'c': np.random.randn(1000) - 1, columns=['a', 'b', 'c'])

plt.figure();

df4.plot(kind='hist', alpha=0.5)

【讨论】:

这没有回答问题,类别保存在数据框的一列中。【参考方案7】:

据我所知,pandas 无法处理这种情况。没关系,因为他们所有的绘图方法都只是为了方便。您需要直接使用 matplotlib。这是我的做法:

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import pandas
#import seaborn
#seaborn.set(style='ticks')

np.random.seed(0)
df = pandas.DataFrame(np.random.normal(size=(37,2)), columns=['A', 'B'])
fig, ax = plt.subplots()

a_heights, a_bins = np.histogram(df['A'])
b_heights, b_bins = np.histogram(df['B'], bins=a_bins)

width = (a_bins[1] - a_bins[0])/3

ax.bar(a_bins[:-1], a_heights, width=width, facecolor='cornflowerblue')
ax.bar(b_bins[:-1]+width, b_heights, width=width, facecolor='seagreen')
#seaborn.despine(ax=ax, offset=10)

这给了我:

【讨论】:

就我而言,这会为数据添加一个偏移量。这在示例中可能无法理解,因为数据是随机的。但是,我无法弄清楚错误在哪里 我看不到任何错误。直方图中每个 bin 的宽度由两个条的组合宽度表示。不是表示数据的最清晰方式,但它的行为符合预期。 @kiril

以上是关于Pandas 中的多个直方图的主要内容,如果未能解决你的问题,请参考以下文章

如何根据两列将直方图拆分为多个图?

Numpy 和 Pandas:从熊猫直方图返回直方图值?

使用直方图的 Matplotlib/Pandas 错误

使用 Pandas 的日期时间每小时直方图 [重复]

Python & Pandas:当 Pandas 将直方图绘制到特定轴时的奇怪行为

Pandas 直方图标签和标题