从 CSV 文件创建字典

Posted

技术标签:

【中文标题】从 CSV 文件创建字典【英文标题】:Creating a dictionary from a CSV file 【发布时间】:2012-12-15 00:14:42 【问题描述】:

我正在尝试编写一个 python 脚本,该脚本将从 CSV 文件中获取输入,然后将其推送为字典格式(我使用的是 Python 3.x)。

我使用下面的代码来读取 CSV 文件并且可以正常工作:

import csv

reader = csv.reader(open('C:\\Users\\Chris\\Desktop\\test.csv'), delimiter=',', quotechar='|')

for row in reader:
    print(', '.join(row))

但现在我想将结果放入字典中。我希望 CSV 文件的第一行用作字典的“键”字段,CSV 文件中的后续行填写数据部分。

样本数据:

     Date        First Name     Last Name     Score
12/28/2012 15:15        John          Smith        20
12/29/2012 15:15        Alex          Jones        38
12/30/2012 15:15      Michael       Carpenter      25

我还想用这段代码做一些额外的事情,但现在只是让字典工作是我正在寻找的。​​p>

谁能帮我解决这个问题?

编辑版本 2:

import csv
reader = csv.DictReader(open('C:\\Users\\Chris\\Desktop\\test.csv'))

result = 

for row in reader:
    for column, value in row.items():
        result.setdefault(column, []).append(value)
        print('Column -> ', column, '\nValue -> ', value)
print(result)

fieldnames = result.keys()

csvwriter = csv.DictWriter(open('C:\\Users\\Chris\\Desktop\\test_out.csv', 'w'), delimiter=',', fieldnames=result.keys())

csvwriter.writerow(dict((fn,fn) for fn in fieldnames))

for row in result.items():
    print('Values -> ', row)
    #csvwriter.writerow(row)

'''
Test output

'''
test_array = []
test_array.append('fruit': 'apple', 'quantity': 5, 'color': 'red');
test_array.append('fruit': 'pear', 'quantity': 8, 'color': 'green');
test_array.append('fruit': 'banana', 'quantity': 3, 'color': 'yellow');
test_array.append('fruit': 'orange', 'quantity': 11, 'color': 'orange');
fieldnames = ['fruit', 'quantity', 'color']
test_file = open('C:\\Users\\Chris\\Desktop\\test_out.csv','w')
csvwriter = csv.DictWriter(test_file, delimiter=',', fieldnames=fieldnames)
csvwriter.writerow(dict((fn,fn) for fn in fieldnames))
for row in test_array:
    print(row)
    csvwriter.writerow(row)
test_file.close()

【问题讨论】:

从您的问题看来,您需要一个带有 4 个键的字典(在这种情况下)[Date, First Name, Last Name, Score],每个条目都是相应列中所有项目的列表。但我有一种感觉,你的意思是你希望每一行的日期成为关键,然后将 [First Name, Last Name, Score] 作为值。 附注:当您需要明确写入路径时,请使用普通斜杠而不是双反斜杠——例如'C:/Users/Chris/Desktop/test.csv'。它在 Windows 中运行良好。或者,您可以使用不解释转义序列的原始字符串(因此不会加倍反斜杠)-r'C:\Users\Chris\Desktop\test.csv'. @Inbar Rose:我想做的是创建字典,键为[日期、名字、姓氏和分数]。然后,我希望将其余数据放置在值字段中,但要根据特定的键(标题字段)。含义 Key => Date, Value => 12/28/2012 15:15...等等。 @Inbar Rose:我更新了之前的代码并得到了我想要的结果。现在我想尝试将其发送到 CSV 文件,但我没有得到我正在寻找的正确格式。它不会将每个单词一起打印,而是每行打印出每个字符(如果有意义的话)。我在版本 2 下提供了上面的代码。在底部加上一些示例代码。此代码正确显示发送到 csv 文件的数据,但它使用的是列表而不是字典。也许您可以帮助我使用该格式将字典正确导出到 csv 文件。谢谢 【参考方案1】:

创建一个字典,然后遍历结果并填充字典中的行。请注意,如果遇到日期重复的行,则必须决定要做什么(引发异常、替换前一行、丢弃后一行等...)

这里是 test.csv:

Date,Foo,Bar
123,456,789
abc,def,ghi

以及相应的程序:

import csv
reader = csv.reader(open('test.csv'))

result = 
for row in reader:
    key = row[0]
    if key in result:
        # implement your duplicate row handling here
        pass
    result[key] = row[1:]
print(result)

产量:

'Date': ['Foo', 'Bar'], '123': ['456', '789'], 'abc': ['def', 'ghi']

或者,使用 DictReader:

import csv
reader = csv.DictReader(open('test.csv'))

result = 
for row in reader:
    key = row.pop('Date')
    if key in result:
        # implement your duplicate row handling here
        pass
    result[key] = row
print(result)

结果:

'123': 'Foo': '456', 'Bar': '789', 'abc': 'Foo': 'def', 'Bar': 'ghi'

或者您可能希望将列标题映射到该列的值列表:

import csv
reader = csv.DictReader(open('test.csv'))

result = 
for row in reader:
    for column, value in row.items():  # consider .iteritems() for Python 2
        result.setdefault(column, []).append(value)
print(result)

产生:

'Date': ['123', 'abc'], 'Foo': ['456', 'def'], 'Bar': ['789', 'ghi']

【讨论】:

@Phil Frost:我尝试执行上述代码,但出现以下错误,我无法弄清楚原因: Traceback(最近一次调用最后一次):文件“C:\Users\Chris\ Desktop\csv_reader2.py",第 8 行,在 key = row[0] KeyError: 0 @ChrisPierce 我的代码是在假设行是序列的情况下编写的。可能您会收到该错误,因为这些行实际上是映射(如 dict),可能是因为您使用的是 DictReader。我已经编辑了答案以涵盖这些情况。 @Phil Frost:这并不是我想要的。我希望键是“日期”,值为“123”和“abc”。所以我希望键是列标题,值是该列的实际数据。例如,键是“日期”,值是“日期”列中的所有日期。 @ChrisPierce:我不明白这与 csv.DictReader 的作用有何不同。你试过阿米尔的答案吗?也许如果你能更准确地描述想要的结果,比如把它写成 Python 文字,或者其他不受英语歧义影响的东西,我会理解得更好。 @Phil Frost:那么 def 确实和我的长代码一样。哈哈。我看到的唯一问题是“iteritems()”对我不起作用。但我使用的是 Python32。也许该功能在 Python32 中不起作用。我不得不改用“items()”,但它显示了相同的结果。第二天左右我会在他身上玩这个(也许不是今晚,因为它是新年前夜)但我会回复你。感谢您的所有帮助!【参考方案2】:

你需要一个 Python DictReader 类。更多帮助可发邮件至here

import csv

with open('file_name.csv', 'rt') as f:
    reader = csv.DictReader(f)
    for row in reader:
        print row

【讨论】:

@Martijn Pieters/Aamir Adrian:我更新了之前的代码并得到了我想要的结果。现在我想尝试将其发送到 CSV 文件,但我没有得到我正在寻找的正确格式。它不会将每个单词一起打印,而是每行打印出每个字符(如果有意义的话)。我在版本 2 下提供了上面的代码。在底部加上一些示例代码。此代码正确显示发送到 csv 文件的数据,但它使用的是列表而不是字典。也许您可以帮助我使用该格式将字典正确导出到 csv 文件。谢谢【参考方案3】:

@phil-frost 的帮助非常有帮助,正是我想要的。

在那之后我做了一些调整,所以我想在这里分享一下:

def csv_as_dict(file, ref_header, delimiter=None):

    import csv
    if not delimiter:
        delimiter = ';'
    reader = csv.DictReader(open(file), delimiter=delimiter)
    result = 
    for row in reader:
        print(row)
        key = row.pop(ref_header)
        if key in result:
            # implement your duplicate row handling here
            pass
        result[key] = row
    return result

你可以这样称呼它:

myvar = csv_as_dict(csv_file, 'ref_column')

其中 ref_colum 将是每一行的主键。

【讨论】:

【参考方案4】:
import csv
def parser_csv(PATH):
    reader = csv.reader(open(".csv".format(PATH), 'r'))
    dict = 
    list_dict = []
    counter = 0
    for row in reader:
        if counter == 0:
            first_row = row
            ecc = len(first_row)
            counter += 1
        else:
            for col in range(ecc):
                dict.update(first_row[col]:row[col])
            list_dict.append(dict)
    return list_dict
print(len(parser_csv("path")))
# Have one less csv file (first row is keys of dict)

【讨论】:

以上是关于从 CSV 文件创建字典的主要内容,如果未能解决你的问题,请参考以下文章

使用Python从CSV文件创建嵌套字典

从 CSV 数据流 python 创建一个字典

Python Killed: 9 在使用从 2 个 csv 文件创建的字典运行代码时

如何读取 2 列 csv 文件并创建字典?

将 csv 文件转换为字典列表

如何从 QtableWidgetItem 创建字典?