有没有办法根据熊猫中的唯一值对列进行排序?

Posted

技术标签:

【中文标题】有没有办法根据熊猫中的唯一值对列进行排序?【英文标题】:Is there a way to order the column according to unique values in pandas? 【发布时间】:2020-10-21 14:17:28 【问题描述】:

假设我有一个包含日期和 ID 列的数据框。这是一个时间序列数据集。所以我需要为这个数据框生成一个时间序列标识符。也就是说,我需要添加一个对应于每个唯一集的值。有没有办法做到这一点?

df = pd.DataFrame('Date':[2012-01-01, 2012-01-01, 2012-01-01, 2012-01-02, 2012-01-02, 2012-01-03, 2012-01-03, 2012-01-03, 2012-01-04, 2012-01-01, 2012-01-04],
                      'Id':[1,2,3,4,5,6,7,8,9,10,11])
print(df)

输出:

   Date       Id
2012-01-01     1
2012-01-01     2
2012-01-01     3
2012-01-02     4
2012-01-02     5
2012-01-03     6
2012-01-03     7
2012-01-03     8
2012-01-04     9
2012-01-01     10
2012-01-04     11

我需要根据日期的唯一性来排序

   Date       Id      TimeID
2012-01-01     1         0
2012-01-02     4         0
2012-01-03     6         0
2012-01-04     9         0
2012-01-01     2         1
2012-01-02     5         1
2012-01-03     7         1
2012-01-04     11        1
2012-01-01     3         2
2012-01-03     8         2
2012-01-01     10        3

【问题讨论】:

这能回答你的问题吗? Pandas number rows within group in increasing order 顺便说一下,您是在对行进行排序,而不是对列进行排序。 (好的,这些是“日期”列中的行。但它算作排序行) 【参考方案1】:

GroupBy.cumcountDataFrame.sort_values 一起使用:

df['TimeID'] = df.groupby('Date').cumcount()
df = df.sort_values('TimeID')
print (df)
          Date  Id  TimeID
0   2012-01-01   1       0
3   2012-01-02   4       0
5   2012-01-03   6       0
8   2012-01-04   9       0
1   2012-01-01   2       1
4   2012-01-02   5       1
6   2012-01-03   7       1
10  2012-01-04  11       1
2   2012-01-01   3       2
7   2012-01-03   8       2
9   2012-01-01  10       3

【讨论】:

【参考方案2】:

首先,使用pd.to_datetime() 将字符串日期转换为日期时间。 然后,按照this solution 使用groupby().cumcount()

import pandas as pd
  
df = pd.DataFrame('Date': ['2012-01-01','2012-01-01','2012-01-01','2012-01-02',
        '2012-01-02','2012-01-03','2012-01-03','2012-01-03','2012-01-04','2012-01-01','2012-01-04'],
        'Id': [1,2,3,4,5,6,7,8,9,10,11])

# strictly, you can read in a datetime as a datetime at pd.read_csv() time
df['Date'] = pd.to_datetime(df['Date'])

【讨论】:

以上是关于有没有办法根据熊猫中的唯一值对列进行排序?的主要内容,如果未能解决你的问题,请参考以下文章

如何根据另一个表中的索引序列对列中的名称进行排序?

如何根据列的值对熊猫数据框中的列进行分类?

熊猫数据透视表手动对列进行排序[重复]

熊猫数据框根据名称对列进行分组并应用函数

Powershell - 有没有办法对 ForEach-Object 中的唯一对象进行排序?

按共同值对列中的项目进行分组,然后显示为百分比