在 Pandas 中重命名多个列
Posted
技术标签:
【中文标题】在 Pandas 中重命名多个列【英文标题】:Renaming Multiple Columns in Pandas 【发布时间】:2018-10-27 10:20:04 【问题描述】:我有一个 CSV 文件,我想在其中重命名一些具有相同名称的列。我的初始代码如下所示
df = pd.read_csv('New.csv')
我使用此代码从数据框中提取了选定的列
df.columns[1::3]
此切片每隔三列获取一次。 现在我想用相同的名称重命名那些每隔三列 但试图像这样重命名我的列 给我一个错误
df.columns[1::3]= ['SomeName']
raise TypeError("Index does not support mutable operations")
有什么方法可以重命名 pandas 中具有相同名称的多个列?
除了手动执行此操作之外,还有其他建议吗?
【问题讨论】:
如果需要动态重命名,新列名的模式是什么? 【参考方案1】:我认为这里最好使用 rename
和独特的新列名称,例如:
df = pd.DataFrame('A':list('abcdef'),
'B':[4,5,4,5,5,4],
'C':[7,8,9,4,2,3],
'D':[1,3,5,7,1,0],
'E':[5,3,6,9,2,4],
'F':list('aaabbb'))
print (df)
A B C D E F
0 a 4 7 1 5 a
1 b 5 8 3 3 a
2 c 4 9 5 6 a
3 d 5 4 7 9 b
4 e 5 2 1 2 b
5 f 4 3 0 4 b
d = dict(zip(df.columns[1::3], range(len(df.columns[1::3]))))
print (d)
'B': 0, 'E': 1
df = df.rename(columns=d)
print (df)
A 0 C D 1 F
0 a 4 7 1 5 a
1 b 5 8 3 3 a
2 c 4 9 5 6 a
3 d 5 4 7 9 b
4 e 5 2 1 2 b
5 f 4 3 0 4 b
或者:
d = dict(zip(df.columns[1::3],
['name'.format(x) for x in range(len(df.columns[1::3]))]))
print (d)
'B': 'name0', 'E': 'name1'
df = df.rename(columns=d)
print (df)
A name0 C D name1 F
0 a 4 7 1 5 a
1 b 5 8 3 3 a
2 c 4 9 5 6 a
3 d 5 4 7 9 b
4 e 5 2 1 2 b
5 f 4 3 0 4 b
不推荐的解决方案是重命名相同的列名:
d = dict.fromkeys(df.columns[1::3], 'Name')
print (d)
'B': 'Name', 'E': 'Name'
df = df.rename(columns=d)
print (df)
A Name C D Name F
0 a 4 7 1 5 a
1 b 5 8 3 3 a
2 c 4 9 5 6 a
3 d 5 4 7 9 b
4 e 5 2 1 2 b
5 f 4 3 0 4 b
因为如果想要查看列 Name
它会返回 DataFrame
中的所有列:
print (df['Name'])
Name Name
0 4 5
1 5 3
2 4 6
3 5 9
4 5 2
5 4 4
【讨论】:
我想在这里使用相同的列名的原因是,我想对这些列名进行分组。 喜欢d = dict.fromkeys(df.columns[1::3], 'Name')
然后df['name'].sum(axis=1)
?那么就可以使用
不,目标是将该分组列用作不求和的索引。【参考方案2】:
df.columns 的类型为 pandas.indexes.base.Index
,这就是您收到 TypeError 的原因。如果将其转换为列表,则可以使用切片更新(重命名),并将 df.columns 设置为更新后的列表。
这对我有用:
lst = list(df.columns)
lst[1::3] = ['someName']*len(lst[1::3])
df.columns = lst
或拥有唯一的新列名(正如@jezrael 指出的那样,可能不建议使用相同的名称):
lst = list(df.columns)
lst[1::3] = ['someName'.format(x) for x in range(len(lst[1::3]))]
df.columns = lst
【讨论】:
【参考方案3】:基础pandas
索引对象是numpy
数组。
您可以利用这一事实来使用numpy
约定进行切片和分配。
来自@jezrael 的数据。 this known issue 需要显式提取值。
df = pd.DataFrame('A':list('abcdef'),
'B':[4,5,4,5,5,4],
'C':[7,8,9,4,2,3],
'D':[1,3,5,7,1,0],
'E':[5,3,6,9,2,4],
'F':list('aaabbb'))
arr = df.columns.values
arr[1::3] = range(2)
df.columns = arr
print(df)
A 0 C D 1 F
0 a 4 7 1 5 a
1 b 5 8 3 3 a
2 c 4 9 5 6 a
3 d 5 4 7 9 b
4 e 5 2 1 2 b
5 f 4 3 0 4 b
【讨论】:
不,而不是。非常糟糕的答案。 ***.com/questions/43291781/… 在我看来这样做很危险,所以被否决了。但是如果改变答案,我会删除downvote,没问题。 在pandas 0.23.0
中测试还是有问题,所以不要使用它。
在我看来最好不要使用它,因为太奇怪的行为。
@jezrael,但我没有使用它。我正在复制这些值,更改它们并重新分配 back.. 这与您的链接问题完全不同。以上是关于在 Pandas 中重命名多个列的主要内容,如果未能解决你的问题,请参考以下文章
从 Pandas 聚合中重命名结果列(“FutureWarning:不推荐使用带有重命名的字典”)