Python:合并文件并删除重复项
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python:合并文件并删除重复项相关的知识,希望对你有一定的参考价值。
我有3个excel文件,每个文件有4000行和5列。我希望在数据框中组合excel文件并删除重复的行。随后,我希望将结果发布为excel文件:
import pandas as pd
import numpy as np
filenames = ['Sample_a.xlsx','Sample_b.xlsx','Sample_c.xlsx']
dataframes = [pd.read_excel(f) for f in filenames]
new_dataframe = df.dropduplicates(dataframes)
我哪里错了?
答案
将excel文件转换为dataframes
变量列表后,需要将其转换为数据框。我找到了一个解决方案,希望你能在这里看到答案。
`import pandas as pd
import numpy as np
filenames = ['csv/2009.xlsx', 'csv/2010.xlsx', 'csv/2011.xlsx']
olddf=pd.DataFrame()
for f in filenames:
df=pd.read_excel(f)
olddf=pd.concat([olddf,df]).drop_duplicates().reset_index(drop=True)`
另一答案
如果不能重现您的结果(我们不知道您的文件中有什么),很难说,但您正试图消除数据帧列表中的重复项。你不应该自己操作数据帧吗?
new_dataframes = [df.drop_duplicates(d) for d in dataframes]
以上是关于Python:合并文件并删除重复项的主要内容,如果未能解决你的问题,请参考以下文章