如何使用python计算一列中每行的唯一值？

Posted 2021-05-03

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何使用python计算一列中每行的唯一值？相关的知识，希望对你有一定的参考价值。

我有这样一个数据框：

id countries
01 [UK,UK,UK,US]
02 [US,US,US,US]
03 [FR,UK,CN,US]

我想计算每个id存在多少个国家/地区。喜欢的结果应该是：

id countries counts
01 [UK,UK,UK,US] 2
02 [US,US,US,US] 1
03 [FR,UK,CN,US] 4

答案

如果值是lists将它们转换为set并获得length：

print (type(df.loc[0, 'countries']))
<class 'list'>

df['counts'] = df['countries'].apply(lambda x: len(set(x)))
print (df)
   id         countries  counts
0   1  [UK, UK, UK, US]       2
1   2  [US, US, US, US]       1
2   3  [FR, UK, CN, US]       4

或者如果值是strings首先删除[]并拆分：

print (type(df.loc[0, 'countries']))
<class 'str'>

df['counts'] = df['countries'].str.strip('[]').str.split(',').apply(lambda x: len(set(x)))
print (df)
   id      countries  counts
0   1  [UK,UK,UK,US]       2
1   2  [US,US,US,US]       1
2   3  [FR,UK,CN,US]       4

以上是关于如何使用python计算一列中每行的唯一值？的主要内容，如果未能解决你的问题，请参考以下文章