使用 Pandas 读取具有多个标题的 excel 表

Posted 2023-02-23

技术标签:

【中文标题】使用 Pandas 读取具有多个标题的 excel 表【英文标题】：Read excel sheet with multiple header using Pandas 【发布时间】：2017-03-26 01:05:48 【问题描述】：

我有一个带有多个标题的 excel 表，例如：

_________________________________________________________________________
____|_____|        Header1    |        Header2     |        Header3      |
ColX|ColY |ColA|ColB|ColC|ColD||ColD|ColE|ColF|ColG||ColH|ColI|ColJ|ColDK|
1   | ds  | 5  | 6  |9   |10  | .......................................
2   | dh  |  ..........................................................
3   | ge  |  ..........................................................
4   | ew  |  ..........................................................
5   | er  |  ..........................................................

现在您可以看到前两列没有标题，它们是空白的，但其他列有标题，如 Header1、Header2 和 Header3。所以我想阅读这张表并将其与其他具有相似结构的表合并。

我想将它合并到第一列“ColX”。现在我正在这样做：

import pandas as pd

totalMergedSheet = pd.DataFrame([1,2,3,4,5], columns=['ColX'])
file = pd.ExcelFile('ExcelFile.xlsx')
for i in range (1, len(file.sheet_names)):
    df1 = file.parse(file.sheet_names[i-1])
    df2 = file.parse(file.sheet_names[i])
    newMergedSheet = pd.merge(df1, df2, on='ColX')
    totalMergedSheet = pd.merge(totalMergedSheet, newMergedSheet, on='ColX')

但我不知道它既不能正确阅读列，我认为也不会以我想要的方式返回结果。所以，我希望得到的框架应该是这样的：

________________________________________________________________________________________________________
____|_____|        Header1    |        Header2     |        Header3      |        Header4     |        Header5      |
ColX|ColY |ColA|ColB|ColC|ColD||ColD|ColE|ColF|ColG||ColH|ColI|ColJ|ColK| ColL|ColM|ColN|ColO||ColP|ColQ|ColR|ColS|
1   | ds  | 5  | 6  |9   |10  | ..................................................................................
2   | dh  |  ...................................................................................
3   | ge  |  ....................................................................................
4   | ew  |  ...................................................................................
5   | er  |  ......................................................................................

请有任何建议。谢谢。

【问题讨论】：

【参考方案1】：

[查看 cmets 了解更新和更正]

Pandas 已经有一个功能，可以为您读取整个 Excel 电子表格，因此您无需手动解析/合并每个工作表。看看pandas.read_excel()。它不仅可以让您在一行中读取 Excel 文件，还可以提供帮助解决您遇到的问题的选项。

由于您有子列，因此您要查找的是MultiIndexing。默认情况下，pandas 将在第一行读取为唯一的标题行。您可以将header 参数传递给pandas.read_excel()，以指示要用作标题的行数。在您的特定情况下，您需要header=[0, 1]，表示前两行。您可能还有多张工作表，因此您也可以传递sheetname=None（这告诉它遍历所有工作表）。命令是：

df_dict = pandas.read_excel('ExcelFile.xlsx', header=[0, 1], sheetname=None)

这将返回一个字典，其中键是工作表名称，值是每个工作表的 DataFrame。如果你想把它全部折叠到一个 DataFrame 中，你可以简单地使用 pandas.concat：

df = pandas.concat(df_dict.values(), axis=0)

【讨论】：

你用的是哪个版本？ @Nguaial 我不记得了，但鉴于这篇文章的日期，我假设在 0.21.0 之前，之后 sheetname 已被弃用。然而，在这种特殊情况下，sheetname 似乎可以简单地替换为 sheet_name 以保持相同的功能。只是为了修正你的答案，实际上，这一行返回一个数据框：df = pandas.read_excel('ExcelFile.xlsx', header=[0, 1], sheet_name=None) 并全部折叠，只是df.columns=df.columns.to_flat_index() @AfonsoMedina 你是对的，如果sheet_name 不是None，你只会得到dict。我的错。

以上是关于使用 Pandas 读取具有多个标题的 excel 表的主要内容，如果未能解决你的问题，请参考以下文章