从 CSV 文件创建字典
Posted
技术标签:
【中文标题】从 CSV 文件创建字典【英文标题】:Creating a dictionary from a CSV file 【发布时间】:2012-12-15 00:14:42 【问题描述】:我正在尝试编写一个 python 脚本,该脚本将从 CSV 文件中获取输入,然后将其推送为字典格式(我使用的是 Python 3.x)。
我使用下面的代码来读取 CSV 文件并且可以正常工作:
import csv
reader = csv.reader(open('C:\\Users\\Chris\\Desktop\\test.csv'), delimiter=',', quotechar='|')
for row in reader:
print(', '.join(row))
但现在我想将结果放入字典中。我希望 CSV 文件的第一行用作字典的“键”字段,CSV 文件中的后续行填写数据部分。
样本数据:
Date First Name Last Name Score
12/28/2012 15:15 John Smith 20
12/29/2012 15:15 Alex Jones 38
12/30/2012 15:15 Michael Carpenter 25
我还想用这段代码做一些额外的事情,但现在只是让字典工作是我正在寻找的。p>
谁能帮我解决这个问题?
编辑版本 2:
import csv
reader = csv.DictReader(open('C:\\Users\\Chris\\Desktop\\test.csv'))
result =
for row in reader:
for column, value in row.items():
result.setdefault(column, []).append(value)
print('Column -> ', column, '\nValue -> ', value)
print(result)
fieldnames = result.keys()
csvwriter = csv.DictWriter(open('C:\\Users\\Chris\\Desktop\\test_out.csv', 'w'), delimiter=',', fieldnames=result.keys())
csvwriter.writerow(dict((fn,fn) for fn in fieldnames))
for row in result.items():
print('Values -> ', row)
#csvwriter.writerow(row)
'''
Test output
'''
test_array = []
test_array.append('fruit': 'apple', 'quantity': 5, 'color': 'red');
test_array.append('fruit': 'pear', 'quantity': 8, 'color': 'green');
test_array.append('fruit': 'banana', 'quantity': 3, 'color': 'yellow');
test_array.append('fruit': 'orange', 'quantity': 11, 'color': 'orange');
fieldnames = ['fruit', 'quantity', 'color']
test_file = open('C:\\Users\\Chris\\Desktop\\test_out.csv','w')
csvwriter = csv.DictWriter(test_file, delimiter=',', fieldnames=fieldnames)
csvwriter.writerow(dict((fn,fn) for fn in fieldnames))
for row in test_array:
print(row)
csvwriter.writerow(row)
test_file.close()
【问题讨论】:
从您的问题看来,您需要一个带有 4 个键的字典(在这种情况下)[Date, First Name, Last Name, Score]
,每个条目都是相应列中所有项目的列表。但我有一种感觉,你的意思是你希望每一行的日期成为关键,然后将 [First Name, Last Name, Score]
作为值。
附注:当您需要明确写入路径时,请使用普通斜杠而不是双反斜杠——例如'C:/Users/Chris/Desktop/test.csv'
。它在 Windows 中运行良好。或者,您可以使用不解释转义序列的原始字符串(因此不会加倍反斜杠)-r'C:\Users\Chris\Desktop\test.csv'
.
@Inbar Rose:我想做的是创建字典,键为[日期、名字、姓氏和分数]。然后,我希望将其余数据放置在值字段中,但要根据特定的键(标题字段)。含义 Key => Date, Value => 12/28/2012 15:15...等等。
@Inbar Rose:我更新了之前的代码并得到了我想要的结果。现在我想尝试将其发送到 CSV 文件,但我没有得到我正在寻找的正确格式。它不会将每个单词一起打印,而是每行打印出每个字符(如果有意义的话)。我在版本 2 下提供了上面的代码。在底部加上一些示例代码。此代码正确显示发送到 csv 文件的数据,但它使用的是列表而不是字典。也许您可以帮助我使用该格式将字典正确导出到 csv 文件。谢谢
【参考方案1】:
创建一个字典,然后遍历结果并填充字典中的行。请注意,如果遇到日期重复的行,则必须决定要做什么(引发异常、替换前一行、丢弃后一行等...)
这里是 test.csv:
Date,Foo,Bar
123,456,789
abc,def,ghi
以及相应的程序:
import csv
reader = csv.reader(open('test.csv'))
result =
for row in reader:
key = row[0]
if key in result:
# implement your duplicate row handling here
pass
result[key] = row[1:]
print(result)
产量:
'Date': ['Foo', 'Bar'], '123': ['456', '789'], 'abc': ['def', 'ghi']
或者,使用 DictReader:
import csv
reader = csv.DictReader(open('test.csv'))
result =
for row in reader:
key = row.pop('Date')
if key in result:
# implement your duplicate row handling here
pass
result[key] = row
print(result)
结果:
'123': 'Foo': '456', 'Bar': '789', 'abc': 'Foo': 'def', 'Bar': 'ghi'
或者您可能希望将列标题映射到该列的值列表:
import csv
reader = csv.DictReader(open('test.csv'))
result =
for row in reader:
for column, value in row.items(): # consider .iteritems() for Python 2
result.setdefault(column, []).append(value)
print(result)
产生:
'Date': ['123', 'abc'], 'Foo': ['456', 'def'], 'Bar': ['789', 'ghi']
【讨论】:
@Phil Frost:我尝试执行上述代码,但出现以下错误,我无法弄清楚原因: Traceback(最近一次调用最后一次):文件“C:\Users\Chris\ Desktop\csv_reader2.py",第 8 行,在你需要一个 Python DictReader 类。更多帮助可发邮件至here
import csv
with open('file_name.csv', 'rt') as f:
reader = csv.DictReader(f)
for row in reader:
print row
【讨论】:
@Martijn Pieters/Aamir Adrian:我更新了之前的代码并得到了我想要的结果。现在我想尝试将其发送到 CSV 文件,但我没有得到我正在寻找的正确格式。它不会将每个单词一起打印,而是每行打印出每个字符(如果有意义的话)。我在版本 2 下提供了上面的代码。在底部加上一些示例代码。此代码正确显示发送到 csv 文件的数据,但它使用的是列表而不是字典。也许您可以帮助我使用该格式将字典正确导出到 csv 文件。谢谢【参考方案3】:@phil-frost 的帮助非常有帮助,正是我想要的。
在那之后我做了一些调整,所以我想在这里分享一下:
def csv_as_dict(file, ref_header, delimiter=None):
import csv
if not delimiter:
delimiter = ';'
reader = csv.DictReader(open(file), delimiter=delimiter)
result =
for row in reader:
print(row)
key = row.pop(ref_header)
if key in result:
# implement your duplicate row handling here
pass
result[key] = row
return result
你可以这样称呼它:
myvar = csv_as_dict(csv_file, 'ref_column')
其中 ref_colum 将是每一行的主键。
【讨论】:
【参考方案4】:import csv
def parser_csv(PATH):
reader = csv.reader(open(".csv".format(PATH), 'r'))
dict =
list_dict = []
counter = 0
for row in reader:
if counter == 0:
first_row = row
ecc = len(first_row)
counter += 1
else:
for col in range(ecc):
dict.update(first_row[col]:row[col])
list_dict.append(dict)
return list_dict
print(len(parser_csv("path")))
# Have one less csv file (first row is keys of dict)
【讨论】:
以上是关于从 CSV 文件创建字典的主要内容,如果未能解决你的问题,请参考以下文章