在python中读取文本奇怪的错误
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了在python中读取文本奇怪的错误相关的知识,希望对你有一定的参考价值。
我打开的文件看起来像这样:http://pastebin.com/ucH5ayHa
并尝试使用简单的python阅读它:
f1 = open("goldstandard-answer-utf-8.txt", "r")
print f1.readline();
for line in f1:
print line
f1.close()
打印行都不打印整个文档。 readline和for循环分别打印:
</file>
这很奇怪。显然它与文档中的标签有关,但我尝试用lmxl etree或美丽的汤解析它都会产生类似的结果。有没有办法强制python打印行和忽略标记,如果这是有道理的?
编辑:(建议通过评论包括)预期输出与pastebin条目完全相同:2028.htm.txtMäkitalo,ÖstenMäkitalo,ÖstenMäkitalo,JessicaLindbäck,ÖstenMäkitalo,ÖstenMäkitalo,RobertBrännström等...
答案
如果文件真的是用utf-8编码的,顾名思义,请尝试打开它:
import codecs
f = codecs.open('goldstandard-answer-utf-8.txt', 'r', encoding='utf-8')
以上是关于在python中读取文本奇怪的错误的主要内容,如果未能解决你的问题,请参考以下文章
在 Python 多处理进程中运行较慢的 OpenCV 代码片段
错误代码:错误域 = NSCocoaErrorDomain 代码 = 3840“JSON 文本没有以数组或对象和允许未设置片段的选项开头。”