如何获得熊猫数据框中一行的百分位数?

Posted

技术标签:

【中文标题】如何获得熊猫数据框中一行的百分位数?【英文标题】:How do I get the percentile for a row in a pandas dataframe? 【发布时间】:2018-11-21 01:57:00 【问题描述】:
Example DataFrame Values -  

0     78
1     38
2     42
3     48
4     31
5     89
6     94
7    102
8    122
9    122  

stats.percentileofscore(temp['INCOME'].values, 38, kind='mean')
15.0

stats.percentileofscore(temp['INCOME'].values, 38, kind='strict')
10.0

stats.percentileofscore(temp['INCOME'].values, 38, kind='weak')
20.0

stats.percentileofscore(temp['INCOME'].values, 38, kind='rank')
20.0

temp['INCOME'].rank(pct=True)
1    0.20 (Only showing the 38 value index)

temp['INCOME'].quantile(0.11)
37.93

temp['INCOME'].quantile(0.12)
38.31999999999999

Based on the results above, you can see none of the methods are consistent
with the pd.quantiles() method.

我需要为数据框中的每一行(2.55 亿行)获取一列的百分位数,但找不到返回它们在pd.quantilenp.percentile 中使用的'linear interpolation' 方法的任何函数/方法。

我尝试了以下方法/功能 -

.rank(pct=True)

此方法只返回按顺序排列的值,而不是使用我正在寻找的百分位数方法。与pd.quantiles不一致

scipy.stats.percentileofscore  

这种方法几乎更接近我正在寻找的方法,但由于某种原因仍然不是 100% 与“线性插值”方法一致。 Related question to this problem with no real answer

我查看了与此问题相关的每个 SO 答案,但没有一个使用我需要使用的相同插值方法,因此请不要将其标记为重复,除非您可以验证它们使用的是相同的方法。

此时我的最后一个选择是只找到所有 100 个百分位数的 bin 截断值并以这种方式应用它或自己计算线性插值,但这似乎非常低效,并且将永远应用于 255M 记录。

还有其他建议吗?

谢谢!

【问题讨论】:

bin-cutoffs 会很简单,除非我遗漏了什么:pd.qcut(df.col_name, q=100) @ALollz 是的,这可行。但是,我需要根据 3 个不同列的值将所有 255M 记录匹配到特定的 bin。我希望有一种更有效的方法,但这可能是我需要做的。不过,我不确定匹配这些垃圾箱的最佳方法。 不完全确定我是否理解,但也许首先使用stack 来获取您需要找到百分位数的所有值的一列?然后,您应该能够根据pd.qcut 的输出进行分组,或者仅根据该输出进行分组,然后对每个百分位数进行一些计算,而无需显式创建它们。 您在 10 行中得到不同的答案并不奇怪,但我认为所有答案(至少几乎)都收敛于 2.55 亿行,不是吗?我不知道这种具体情况,但由于您的行数和质量点数较少,因此在各种程序(sas/stata/r/etc)之间得到qcut 的答案通常会略有不同。例如。如果 25% 的值是 0 或 1,那么不同的程序可以采用不同的策略在组之间分割 0 或 1(因为它们不可避免地跨越 2 个或更多组)。 您能否更明确地说明您对所有输入值的期望百分比值是多少? 【参考方案1】:

TL;博士

使用

sz = temp['INCOME'].size-1
temp['PCNT_LIN'] = temp['INCOME'].rank(method='max').apply(lambda x: 100.0*(x-1)/sz)

   INCOME    PCNT_LIN
0      78   44.444444
1      38   11.111111
2      42   22.222222
3      48   33.333333
4      31    0.000000
5      89   55.555556
6      94   66.666667
7     102   77.777778
8     122  100.000000
9     122  100.000000

回答

其实很简单,只要你了解了机制。当您在寻找分数的百分位数时,您已经拥有每行中的分数。剩下的唯一步骤是了解您需要小于或等于所选值的百分位数。这正是scipy.stats.percentileofscore() 的参数kind='weak'DataFrame.rank()method='average' 所做的。要反转它,请使用 interpolation='lower' 运行 Series.quantile()

所以,scipy.stats.percentileofscore()Series.rank()Series.quantile() 的行为一致的,见下文:

In[]:
temp = pd.DataFrame([  78, 38, 42, 48, 31, 89, 94, 102, 122, 122], columns=['INCOME'])
temp['PCNT_RANK']=temp['INCOME'].rank(method='max', pct=True)
temp['POF']  = temp['INCOME'].apply(lambda x: scipy.stats.percentileofscore(temp['INCOME'], x, kind='weak'))
temp['QUANTILE_VALUE'] = temp['PCNT_RANK'].apply(lambda x: temp['INCOME'].quantile(x, 'lower'))
temp['RANK']=temp['INCOME'].rank(method='max')
sz = temp['RANK'].size - 1 
temp['PCNT_LIN'] = temp['RANK'].apply(lambda x: (x-1)/sz)
temp['CHK'] = temp['PCNT_LIN'].apply(lambda x: temp['INCOME'].quantile(x))

temp

Out[]:
   INCOME  PCNT_RANK    POF  QUANTILE_VALUE  RANK  PCNT_LIN    CHK
0      78        0.5   50.0              78   5.0  0.444444   78.0
1      38        0.2   20.0              38   2.0  0.111111   38.0
2      42        0.3   30.0              42   3.0  0.222222   42.0
3      48        0.4   40.0              48   4.0  0.333333   48.0
4      31        0.1   10.0              31   1.0  0.000000   31.0
5      89        0.6   60.0              89   6.0  0.555556   89.0
6      94        0.7   70.0              94   7.0  0.666667   94.0
7     102        0.8   80.0             102   8.0  0.777778  102.0
8     122        1.0  100.0             122  10.0  1.000000  122.0
9     122        1.0  100.0             122  10.0  1.000000  122.0

现在在PCNT_RANK 列中,您会得到小于或等于INCOME 列中值的比率。但是,如果您想要“插值”比率,它位于 PCNT_LIN 列中。当您使用 Series.rank() 进行计算时,它的速度非常快,可以在几秒钟内为您处理 2.55 亿个数字。


在这里,我将解释如何使用 quantile()linear 插值获得值:

temp['INCOME'].quantile(0.11)
37.93

我们的数据temp['INCOME'] 只有十个值。根据您link to Wiki 的公式,第 11 个百分位数的排名是

rank = 11*(10-1)/100 + 1 = 1.99

rank被截断部分为1,对应值为31,rank为2(即next bin)的值为38。fraction的值为小数排名的一部分。这导致了结果:

 31 + (38-31)*(0.99) = 37.93

对于值本身,fraction 部分必须为零,因此很容易进行逆计算以获得百分位数:

p = (rank - 1)*100/(10 - 1)

我希望我说得更清楚。

【讨论】:

感谢您的解决方案和深入的解释!这很有效,而且速度也很快。【参考方案2】:

这似乎有效:

A = np.sort(temp['INCOME'].values)
np.interp(sample, A, np.linspace(0, 1, len(A)))

例如:

>>> temp.INCOME.quantile(np.interp([37.5, 38, 122, 121], A, np.linspace(0, 1, len(A))))
0.103175     37.5
0.111111     38.0
1.000000    122.0
0.883333    121.0
Name: INCOME, dtype: float64

请注意,此策略仅在您要查询足够多的值时才有意义。否则排序太贵了。

【讨论】:

【参考方案3】:

让我们考虑以下数据框:

DataFrame

为了获取 pandas Dataframe 中列的百分位数,我们使用以下代码:

 survey['Nationality'].value_counts(normalize='index')

输出:

美国 0.333333

中国 0.250000

印度 0.250000

孟加拉国 0.166667

姓名:国籍,数据类型:float64

为了获取 pandas Dataframe 中的列相对于另一个分类列的百分位数

pd.crosstab(survey.Sex,survey.Handedness,normalize = 'index')

输出如下所示

Output

【讨论】:

以上是关于如何获得熊猫数据框中一行的百分位数?的主要内容,如果未能解决你的问题,请参考以下文章

熊猫如何在数据框的相应列检查行的每个元素的百分位数

大熊猫是否表现出错误的百分位数?

Pandas .. 分位数函数是不是需要排序数据来计算百分位数?

熊猫在其中获得价值百分位

滚动百分位数 - 熊猫

熊猫数据帧的分位数归一化