附加从循环生成的表

Posted

技术标签:

【中文标题】附加从循环生成的表【英文标题】:Appending tables generated from a loop 【发布时间】:2021-07-14 05:47:03 【问题描述】:

我是这里的新 python 用户,我正在尝试将我使用 Camelot 从 pdf 中提取的数据附加在一起,但无法将它们连接在一起。

这是我的代码:

url = 'https://www.fhfa.gov/DataTools/Downloads/Documents/HPI/HPI_AT_Tables.pdf'

tables = camelot.read_pdf(url,flavor='stream', edge_tol = 500, pages = '1-end')

i = 0

while i in range(0,tables.n):
    header = tables[i].df.index[tables[i].df.iloc[:,0]=='Metropolitan Statistical Area'].to_list()
    header = str(header)[1:-1]
    header = (int(header))
    tables[i].df = tables[i].df.rename(columns = tables[i].df.iloc[header])
    tables[i].df = tables[i].df.drop(columns = '': 'Blank')

    print(tables[i].df)
    #appended_data.append(tables[i].df)
    
#if i > 0:
#    dfs = tables[i-1].append(tables[i], ignore_index = True)
#pass

    i = i + 1

任何帮助将不胜感激

【问题讨论】:

【参考方案1】:

您可以使用pandas.concat() 连接数据框列表。

while i in range(0,tables.n):
    header = tables[i].df.index[tables[i].df.iloc[:,0]=='Metropolitan Statistical Area'].to_list()
    header = str(header)[1:-1]
    header = (int(header))
    tables[i].df = tables[i].df.rename(columns = tables[i].df.iloc[header])
    tables[i].df = tables[i].df.drop(columns = '': 'Blank')

df_ = pd.concat([table.df for table in tables])

【讨论】:

哇,就是这么简单!非常感谢,干杯! @BenSorensen 您也可以使用pd.concat(.., ignore_index=True) 忽略后面的数据帧索引。

以上是关于附加从循环生成的表的主要内容,如果未能解决你的问题,请参考以下文章

附加在 for 循环中生成的 pandas 数据帧

无法在嵌套循环中使用 pandas 附加更大的数据帧。如何更改为 numpy 向量化?

循环嵌套数组生成不同长度的表

在查找或创建循环期间将数据附加到 NSFetchedResultsController

从循环查询 PHP MYSQL JSON 合并数组

从for循环将系列附加到dict或list或dataframe?