CSV 写入需要唯一分隔符的文本字符串

Posted

技术标签:

【中文标题】CSV 写入需要唯一分隔符的文本字符串【英文标题】:CSV writing strings of text that need a unique delimiter 【发布时间】:2014-02-25 00:05:57 【问题描述】:

我在 python 中编写了一个 html 解析器,用于提取数据,使其在 csv 文件中看起来像这样:

    itemA, itemB, itemC, Sentence that might contain commas, or colons: like this,\n

所以我使用了分隔符“:::::”,认为它不会在数据中被挖掘

    itemA, itemB, itemC, ::::: Sentence that might contain commas, or colons: like this,::::\n

这适用于数千行中的大多数,但是,显然是一个冒号:当我在 Calc 中导入 csv 时抵消它。

我的问题是,在创建包含许多需要用某些定界符分隔的句子变体的 csv 时,最好使用或唯一的定界符是什么?我是否正确理解分隔符,因为它们分隔 CSV 中的值?

【问题讨论】:

在数据中使用的集合之外使用分隔符,例如chr(255) @martineau 我使用了一个不常见的序列作为分隔符 (~~~) 但在未来我相信这是最好的答案!您如何将 chr(255) 写入文件? output.write(chr(255))? 是的,您可以通过chr(255) 编写它,或者在使用csv module 时通过关键字参数delimiter=chr(255) 指定使用它。您希望我将此添加为答案吗? @martineau 我会选择它作为答案:) 【参考方案1】:

正如我在评论中非正式地建议的那样,唯一意味着您需要使用一些不会出现在数据中的字符 - chr(255) 可能是一个不错的选择。例如:

注意:显示的代码适用于 Python 2.x — 有关 Python 3 版本,请参阅 cmets。

import csv

DELIMITER = chr(255)
data = ["itemA", "itemB", "itemC",
        "Sentence that might contain commas, colons: or even \"quotes\"."]

with open('data.csv', 'wb') as outfile:
    writer = csv.writer(outfile, delimiter=DELIMITER)
    writer.writerow(data)

with open('data.csv', 'rb') as infile:
    reader = csv.reader(infile, delimiter=DELIMITER)
    for row in reader:
        print row

输出:

['itemA', 'itemB', 'itemC', 'Sentence that might contain commas, colons: or even "quotes".']

如果您没有使用 csv 模块,而是手动写入和/或读取数据,那么它会变成这样:

with open('data.csv', 'wb') as outfile:
    outfile.write(DELIMITER.join(data) + '\n')

with open('data.csv', 'rb') as infile:
    row = infile.readline().rstrip().split(DELIMITER)
    print row

【讨论】:

对于任何感兴趣的人,此答案的 Python 3 版本已发布here。【参考方案2】:

是的,分隔符分隔 CSV 文件的每一行中的值。有两种策略来分隔具有大量标点符号的文本。首先,您可以引用这些值,例如:

Value 1, Value 2, "This value has a comma, <- right there", Value 4

第二种策略是使用标签(即'\t')。

Python 的内置 CSV 模块可以读取和写入使用引号的 CSV 文件。查看the csv.reader function 下的示例代码。内置的 csv 模块将正确处理引号,例如它将转义值本身中的引号。

【讨论】:

【参考方案3】:

CSV 文件通常使用双引号 " 来包装可能包含逗号等字段分隔符的长字段。如果字段包含双引号,则使用反斜杠进行转义:\"

【讨论】:

我现在试试,但我担心我提取的文本中会包含双引号,导致所有内容都错位

以上是关于CSV 写入需要唯一分隔符的文本字符串的主要内容,如果未能解决你的问题,请参考以下文章

使用“,”将包含字符串的分号写入 CSV,因为分隔符仍然会导致 CSV 文件中的分隔

excel另存为csv打开后有大量逗号是怎么回事?

导出csv文件示例

iOS-解析读取CSV文件,解析excel文件

将字符串写入 CSV 时转义逗号

csv 文件的读写