pandas表连接

Posted 2023-05-03

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了pandas表连接相关的知识，希望对你有一定的参考价值。

参考技术A Pandas Dataframe有三种连接方法，分别是merge，join，concat。

merge相当于SQL中的join。通过在两个Dataframe中共有的列或索引进行合并。
通过on参数指定连接的共有列名或索引名，how参数指定连接方式为left、right、outer、inner（默认）。如果不指定on参数，则默认在两个Dataframe的列交集作为连接键。
对于非公有列，采用left_on、right_on分别制定两个Dataframe用于连接的列。

join方法也用来横向连接Dataframe，与merge类似。但主要基于行索引进行合并。
在不指定on参数的时候，默认按照行索引进行简单合并。类似于axis=1时的concat方法。

如果希望使用列进行连接，需要将列设置为行索引在进行连接。有如下两种方式。

concat则用来堆叠连接Dataframe。
参数axis用来指定堆叠方向。默认为0，沿行索引方向（纵向）堆叠，1则沿列方向。
通过join参数，指定用inner、outer方式来处理堆叠方向外的轴方向上索引的处理方式。

此外，常用的参数还包括ignore_index，用来决定是否保留原Dataframe中的索引。

在 Pandas 中连接 Excel 文件表，以 CSV 格式每 1 行将大型 Pandas 数据框导出到新的 Excel 文件。自动化？

【中文标题】在 Pandas 中连接 Excel 文件表，以 CSV 格式每 1 行将大型 Pandas 数据框导出到新的 Excel 文件。自动化？【英文标题】：Concatenate Excel File Sheets in Pandas, Exporting Large Pandas Data Frame to new Excel files every 1 mill rows in CSV format. Automation? 【发布时间】：2021-12-23 15:44:38 【问题描述】：

我有一个包含多张工作表的 excel 文件。我正在尝试将所有工作表放入一个文件中。因此，首先我将文件读入 Jupyter Notebook 并将工作表连接到 1 个数据框中。看起来 .to_excel 方法可以制作单个 excel 文件。

如何让 pandas 将其导出为 CSV 而不是 xlsx？另外，有没有办法让它在第 100 万行中断并为接下来的 100 万行开始一个新的 Excel 文件（因为 Excel 有行限制）？

另外一点，想知道如何自动化这个过程？我假设一个 for 循环将是我想要完全用于该过程的函数。

最后，将其保存在 xlsx 文件中不允许我打开该文件。此外，当我将其转换为 csv 时，它会返回与我的文件完全不同的乱码。

我目前的代码：

pip install pandas
import pandas as pd

Pipeline_df = pd.concat(pd.read_excel('PandasToExcel.xlsx', sheet_name = None), ignore_index = True)
Pipeline_writer = pd.ExcelWriter('Pipeline_output.xlsx', engine = 'xlsxwriter')
Pipeline_writer.save()

【问题讨论】：

请提供足够的代码，以便其他人更好地理解或重现问题。 【参考方案1】：

Yo 可以直接使用 to_csv 并计算要写入的块。可能已经有这个库了，但是我用过这个。

import math
df = pd.DataFrame('dataseet':range(1,1000500))

num_rows = df.shape[0]
chunk_size = 1000000
chunks = math.ceil(num_rows / chunk_size)

for i in range(chunks):
    dftowrite = df[chunk_size*i : chunk_size*(i+1)]
    dftowrite.to_csv('filechunk_.csv'.format(i))

【讨论】：

此代码有效，但文件输出只是从 1 到 100 万的单行。我需要获取我拥有的 xlsx 文件。连接该文件中的工作表并将它们导出到新的 csv 文件。但由于 Excel 的限制，一次需要 100 万多行数据。我一定在这里遗漏了一些东西。我必须承认我对 Python 的了解不够，无法解释您的代码。你说你有一个连接的数据框？？？只需使用您的 df 而不是提供的示例（因为我无权访问您的数据进行测试）。好的，我这样做了：df1 = pd.DataFrame(new_df[0:1000000]) df2 = pd.DataFrame(new_df[1000001:1016385]) df1.to_csv('new_example', index =假) df2.to_csv('new_example2', index = False) 。输出被乱码乱码。因此，转到存储文件的位置（C 驱动器）并在记事本中“打开”。将记事本保存为 CSV。现在关心的是如何让它自动化？获取 Excel 文件、将工作表连接到 DF、将连接的 DF 导出到 CSV 的函数。在 1milli 行处，一个新的 CSV 开始如果您不知道如何读取 excel 文件并连接 df，那么您应该提出一个新问题。打开 csv 时出现问题：您没有将 .csv 放在文件名中。我一般建议您花一些时间搜索 *** 以满足您的需求。你问的每件事都有几个相似的例子。有字符限制。作为一个新手，试图解释所有细节是很困难的。但是，我已经简化了我的问题。此时，我只需要构建函数来执行我的工作。现在我可以读取和连接我的 Excel 文件的工作表。然后，我可以将 concat 文件拆分为多个 df 100 万。然后，将 df 转换为 CSV。但是，当我将其放入函数时，由于函数参数中的错误，它无法正常工作。这是我的功能： defautomated_excel(excel_automated): 我尝试输入 (excel_auto.xlsx) 甚至使用 " " 并且它被标记

以上是关于pandas表连接的主要内容，如果未能解决你的问题，请参考以下文章