使用python pandas加入多个CSV文件

Question

我试图通过使用python pandas从多个csv文件创建一个CSV文件。

accreditation.csv -

"pid","accreditation_body","score"
"25799","TAAC","4.5"
"25796","TAAC","5.6"
"25798","DAAC","5.7"

ref_university -

"id","pid","survery_year","end_year"
"1","25799","2018","2018"
"2","25797","2016","2018"

我想通过阅读table_structure.csv的指令来创建一个新表。我想加入两个表并重写accreditation.csv。 REFERENCES ref_university(id, survey_year)通过匹配ref_university.csv列值与id连接并插入survery_year和pid列值。

table_structure.csv -

table_name,attribute_name,attribute_type,Description
,,,
accreditation,accreditation_body,varchar,
,grading,varchar,
,pid,int4, "REFERENCES ref_university(id, survey_year)"
,score,float8,

修改后的CSV文件应如下所示，

新的accreditation.csv： -

"accreditation_body","grading","pid","id","survery_year","score"
"TAAC","","25799","1","2018","2018","4.5"
"TAAC","","25797","2","2016","2018","5.6"
"DAAC","","25798","","","","5.7"

我可以在熊猫中阅读csv

df = pd.read_csv("accreditation.csv")

但是，建议的方法是读取REFERENCES指令并选择列值。如果没有值，则列应为空。我们不能在熊猫功能中核心pid。我们必须阅读table_structure.csv并匹配，如果有一个参考，然后调用提到的列。它不应该合并，只应添加特定的列。