Python Pandas - 具有不同列的 Concat 数据框忽略列名

Posted

技术标签:

【中文标题】Python Pandas - 具有不同列的 Concat 数据框忽略列名【英文标题】:Python Pandas - Concat dataframes with different columns ignoring column names 【发布时间】:2018-01-17 08:30:24 【问题描述】:

我有两个pandas.DataFrames,我想将它们合并为一个。数据框具有相同数量的列,顺序相同,但具有不同语言的列标题。如何有效地组合这些数据帧?

df_ger
index  Datum   Zahl1   Zahl2
0      1-1-17  1       2
1      2-1-17  3       4

df_uk
index  Date    No1     No2
0      1-1-17  5       6
1      2-1-17  7       8

desired output
index  Datum   Zahl1   Zahl2
0      1-1-17  1       2
1      2-1-17  3       4
2      1-1-17  5       6
3      2-1-17  7       8

到目前为止,我想出的唯一方法是重命名列标题,然后使用pd.concat([df_ger, df_uk], axis=0, ignore_index=True)。不过,我希望能找到更通用的方法。

【问题讨论】:

您对重命名有何顾虑? 我正在使用的数据框非常大。 (> 30 列)。我是从外部来源获得的,标签可能会改变。 也许有一种更通用的方法可以处理列索引,忽略设置的列名,但我找不到任何东西。 【参考方案1】:

如果列的顺序始终相同,您可以机械地rename 列并执行append 之类的操作:

代码:

new_cols = x: y for x, y in zip(df_uk.columns, df_ger.columns)
df_out = df_ger.append(df_uk.rename(columns=new_cols))

测试代码:

df_ger = pd.read_fwf(StringIO(
    u"""
        index  Datum   Zahl1   Zahl2
        0      1-1-17  1       2
        1      2-1-17  3       4"""),
    header=1).set_index('index')

df_uk = pd.read_fwf(StringIO(
    u"""
        index  Date    No1     No2
        0      1-1-17  5       6
        1      2-1-17  7       8"""),
    header=1).set_index('index')

print(df_uk)
print(df_ger)

new_cols = x: y for x, y in zip(df_uk.columns, df_ger.columns)
df_out = df_ger.append(df_uk.rename(columns=new_cols))

print(df_out)

结果:

         Date  No1  No2
index                  
0      1-1-17    5    6
1      2-1-17    7    8

        Datum  Zahl1  Zahl2
index                      
0      1-1-17      1      2
1      2-1-17      3      4

        Datum  Zahl1  Zahl2
index                      
0      1-1-17      1      2
1      2-1-17      3      4
0      1-1-17      5      6
1      2-1-17      7      8

【讨论】:

【参考方案2】:

如果您可以确定两个数据帧的结构保持不变,我会看到两个选项:

    保留所选默认语言的数据框列名称(我假设为 en_GB),然后将它们复制过来:

    df_ger.columns = df_uk.columns
    df_combined = pd.concat([df_ger, df_uk], axis=0, ignore_index=True)
    

    无论列名是什么,这都有效。但是,从技术上讲,它仍然在重命名。

    使用 numpy.ndarrays 将数据从数据框中拉出,将它们连接到 numpy 中,然后再次从中制作数据框:

    np_ger_data = df_ger.as_matrix()
    np_uk_data = df_uk.as_matrix()
    np_combined_data = numpy.concatenate([np_ger_data, np_uk_data], axis=0)
    df_combined = pd.DataFrame(np_combined_data, columns=["Date", "No1", "No2"])
    

    这个解决方案需要更多资源,所以我会选择第一个。

【讨论】:

【参考方案3】:

我不确定这是否会比你想象的更简单,但如果主要目标是一般性的,那么这应该是一个假设:两个文件中的列匹配,例如,如果日期是第一列,翻译后的版本也将是第一列。

# number of columns
n_columns = len(df_ger.columns)

# save final columns names
columns = df_uk.columns

# rename both columns to numbers
df_ger.columns = range(n_columns)
df_uk.columns = range(n_columns)

# concat columns
df_out = pd.concat([df_ger, df_uk], axis=0, ignore_index=True)

# rename columns in new dataframe
df_out.columns = columns

【讨论】:

以上是关于Python Pandas - 具有不同列的 Concat 数据框忽略列名的主要内容,如果未能解决你的问题,请参考以下文章

Pandas 合并具有不同列的两个数据框

为啥在具有一级索引的 MultiIndex 列的 pandas DataFrame 中表现不同?

基于不同列的具有可变窗口的 Pandas 滚动平均值

合并具有来自两个不同列的匹配值的 DataFrame - Pandas [重复]

python - Pandas - FillNa 与另一个具有相似列的非空行

Pandas 将具有多个值的行数据合并到列的 Python 列表中