在python中读取文本奇怪的错误

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了在python中读取文本奇怪的错误相关的知识,希望对你有一定的参考价值。

我打开的文件看起来像这样:http://pastebin.com/ucH5ayHa

并尝试使用简单的python阅读它:

f1 = open("goldstandard-answer-utf-8.txt", "r")

print f1.readline();

for line in f1:
    print line

f1.close()

打印行都不打印整个文档。 readline和for循环分别打印:

</file>

这很奇怪。显然它与文档中的标签有关,但我尝试用lmxl etree或美丽的汤解析它都会产生类似的结果。有没有办法强制python打印行和忽略标记,如果这是有道理的?

编辑:(建议通过评论包括)预期输出与pastebin条目完全相同:2028.htm.txtMäkitalo,ÖstenMäkitalo,ÖstenMäkitalo,JessicaLindbäck,ÖstenMäkitalo,ÖstenMäkitalo,RobertBrännström等...

答案

如果文件真的是用utf-8编码的,顾名思义,请尝试打开它:

import codecs

f = codecs.open('goldstandard-answer-utf-8.txt', 'r', encoding='utf-8')

以上是关于在python中读取文本奇怪的错误的主要内容,如果未能解决你的问题,请参考以下文章

如何使用Python脚本从PDF中读取阿拉伯语文本

在 Python 多处理进程中运行较慢的 OpenCV 代码片段

错误代码:错误域 = NSCocoaErrorDomain 代码 = 3840“JSON 文本没有以数组或对象和允许未设置片段的选项开头。”

ListFragments 错误的数据奇怪的寻呼机

片段在我的回收站视图中表现得很奇怪

使用制服时 Xamarin OpenGL 片段着色器的奇怪行为