如何绘制样本的 PMF?
Posted
技术标签:
【中文标题】如何绘制样本的 PMF?【英文标题】:How to plot a PMF of a sample? 【发布时间】:2014-10-06 01:27:04 【问题描述】:是否有任何函数或库可以帮助我绘制样本的概率质量函数,就像绘制样本的概率密度函数一样?
例如,使用 pandas,绘制 PDF 就像调用一样简单:
sample.plot(kind="density")
如果没有简单的方法,我该如何计算 PMF 以便我可以使用 matplotlib 进行绘图?
【问题讨论】:
或许this thread 能帮到你…… 【参考方案1】:如果ts
是一个系列,您可以通过以下方式获取样本的PMF:
>>> pmf = ts.value_counts().sort_index() / len(ts)
并通过以下方式绘制它:
>>> pmf.plot(kind='bar')
使用np.unique
可以完成仅numpy的解决方案:
>>> xs = np.random.randint(0, 10, 100)
>>> xs
array([5, 2, 2, 1, 2, 8, 6, 7, 5, 3, 2, 6, 4, 9, 7, 6, 4, 7, 6, 8, 7, 0, 6,
2, 9, 8, 7, 7, 2, 6, 2, 8, 0, 2, 5, 1, 3, 6, 7, 7, 2, 2, 0, 3, 8, 7,
4, 0, 5, 7, 5, 4, 4, 9, 5, 1, 6, 6, 0, 9, 4, 2, 0, 8, 7, 5, 1, 1, 2,
8, 3, 8, 9, 0, 0, 6, 8, 7, 2, 6, 7, 9, 7, 8, 8, 3, 3, 7, 8, 2, 2, 4,
4, 5, 3, 4, 1, 5, 5, 1])
>>> val, cnt = np.unique(xs, return_counts=True)
>>> pmf = cnt / len(xs)
>>> # values along with probability mass function
>>> np.column_stack((val, pmf))
array([[ 0. , 0.08],
[ 1. , 0.07],
[ 2. , 0.15],
[ 3. , 0.07],
[ 4. , 0.09],
[ 5. , 0.1 ],
[ 6. , 0.11],
[ 7. , 0.15],
[ 8. , 0.12],
[ 9. , 0.06]])
【讨论】:
解决方案适用于pandas
,您能否建议numpy
或seaborn
作为没有标题的数据。
@SitzBlogz 添加了一个仅 numpy 的解决方案,但我没有使用 seaborn
感谢您的解决方案,但我得到了一些可疑的输出。我应该将其作为不同的问题提出并在此处放置链接吗?
请在这里找到帖子***.com/questions/36728579/…【参考方案2】:
给定一个 Pandas 数据框,df
,你可以使用 seaborn 编写
import seaborn as sns
probabilities = df['SomeColumn'].value_counts(normalize=True)
sns.barplot(probabilities.index, probabilities.values)
【讨论】:
【参考方案3】:您可以使用np.histogram
使用density=true
计算 PMF 前提是使用单位宽度的 bin(否则您将在最可能不是你需要的)。
>>> xs = np.array(
[5, 2, 2, 1, 2, 8, 6, 7, 5, 3, 2, 6, 4, 9, 7, 6, 4, 7, 6, 8, 7, 0, 6,
2, 9, 8, 7, 7, 2, 6, 2, 8, 0, 2, 5, 1, 3, 6, 7, 7, 2, 2, 0, 3, 8, 7,
4, 0, 5, 7, 5, 4, 4, 9, 5, 1, 6, 6, 0, 9, 4, 2, 0, 8, 7, 5, 1, 1, 2,
8, 3, 8, 9, 0, 0, 6, 8, 7, 2, 6, 7, 9, 7, 8, 8, 3, 3, 7, 8, 2, 2, 4,
4, 5, 3, 4, 1, 5, 5, 1])
>>> pmf, bins = np.histogram(xs, bins=range(0,11), density=True)
>>> np.column_stack((bins[:-1], pmf))
array([[ 0. , 0.08],
[ 1. , 0.07],
[ 2. , 0.15],
[ 3. , 0.07],
[ 4. , 0.09],
[ 5. , 0.1 ],
[ 6. , 0.11],
[ 7. , 0.15],
[ 8. , 0.12],
[ 9. , 0.06]])
【讨论】:
【参考方案4】:import matplotlib.pyplot as plt
import seaborn as sns
samp = [5, 2, 2, 1, 2, 8, 6, 7, 5, 3, 2, 6, 4, 9, 7, 6, 4, 7, 6, 8, 7, 0, 6,
2, 9, 8, 7, 7, 2, 6, 2, 8, 0, 2, 5, 1, 3, 6, 7, 7, 2, 2, 0, 3, 8, 7,
4, 0, 5, 7, 5, 4, 4, 9, 5, 1, 6, 6, 0, 9, 4, 2, 0, 8, 7, 5, 1, 1, 2,
8, 3, 8, 9, 0, 0, 6, 8, 7, 2, 6, 7, 9, 7, 8, 8, 3, 3, 7, 8, 2, 2, 4,
4, 5, 3, 4, 1, 5, 5, 1]
plt.ylabel('PMF')
sns.histplot(samp, stat='probability', bins=20);
【讨论】:
什么是plt?和sns?你能用你的导入改进你的代码吗?谢谢! 两者都是常用的习惯用法,包括在他们自己的文档中。以上是关于如何绘制样本的 PMF?的主要内容,如果未能解决你的问题,请参考以下文章
绘制测试集训练集的每一个病人或者样本的raidomics signiture图(绘制raidomics signature图),以及ROC曲线图