可以在循环中多次使用 getline() 吗? - Cython,文件读取

Posted

技术标签:

【中文标题】可以在循环中多次使用 getline() 吗? - Cython,文件读取【英文标题】:Can getline() be used multiple times within a loop? - Cython, file reading 【发布时间】:2021-07-19 07:33:24 【问题描述】:

我想读取一个 4 行 4 行的文件(它是一个 fastq 文件,带有 DNA 序列)。 当我一个接一个或两个接一个地读取文件时,没有问题,但是当我一次读取 3 或 4 行时,我的代码崩溃了(内核似乎已经在 jupyter notebook 上死了)。 (取消注释最后一部分,或 4 个 getline() 中的任何 3 个。 我尝试使用双数组 char (char**) 来存储行,但问题相同。

知道可能是什么原因吗?

使用 Python 3.7.3、Cython 0.29,所有其他库都已更新。正在读取的文件大约 1.3GB,机器有 8GB,ubuntu 16.04。 代码改编自https://gist.github.com/pydemo/0b85bd5d1c017f6873422e02aeb9618a

%%cython
from libc.stdio cimport FILE, fopen, fclose, getline
    
def fastq_reader(early_stop=10):
    cdef const char* fname = b'/path/to/file'
    cdef FILE* cfile
    cfile = fopen(fname, "rb")

    cdef:
        char * line_0 = NULL
        char * line_1 = NULL
        char * line_2 = NULL
        char * line_3 = NULL
        size_t seed = 0
        ssize_t length_line
        unsigned long long line_nb = 0

    while True:
        length_line = getline(&line_0, &seed, cfile)
        if length_line < 0: break
        
        length_line = getline(&line_1, &seed, cfile)
        if length_line < 0: break
        
#         length_line = getline(&line_2, &seed, cfile)
#         if length_line < 0: break
        
#         length_line = getline(&line_3, &seed, cfile)
#         if length_line < 0: break

        line_nb += 4
        if line_nb > early_stop:
            break

    fclose(cfile)
    return line_nb

fastq_reader(early_stop=20000)

【问题讨论】:

seed 中包含的值告诉getline 是什么? 每次使用空指针调用 getline 时,n(或种子在您的情况下)应该为 0,但不是 谢谢大家,找到了。我误解了 getline() 的第二个参数。该“种子”实际上是缓冲区大小,由 getline() 调整大小。所以每行需要一个不同的变量。 【参考方案1】:

根本问题是我对getline()getline() c reference的误解

要将行存储在不同的变量中,需要为每个行指针*lineptr 关联一个n

如果在调用前 *lineptr 设置为 NULL 并且 *n 设置为 0,那么 getline() 将分配一个缓冲区来存储该行。

或者,在调用 getline() 之前,*lineptr 可以包含一个 指向 malloc(3) 分配的缓冲区 *n 字节大小的指针。如果 缓冲区不够大,无法容纳行,getline() 调整它的大小 使用 realloc(3),根据需要更新 *lineptr 和 *n。

n(或我的代码中的seed)将保存为指针分配的缓冲区的大小,getline() 将传入行放在其中。当我为不同的指针设置相同的缓冲区变量时,getline 得到了错误的字符大小信息* line_xxx。


因为 fastq 文件通常是这种形状:

@read_id_usually_short
CTATACCACCAAGGCTGGAAATTGTAAAACACACCGCCTGACATATCAATAAGGTGTCAAATTCCCTTTTCTCTAGCTTTCGTACT_very_long
+
-///.)/.-/)//-//..-*...-.&%&.--%#(++*/.//////,/*//+(.///..,%&-#&)..,)/.,.._same_length_as_line_2

对于具有相同缓冲区长度的一两个 getline() 没有错误,因为缓冲区太小并且 getline 增大了指针的大小。 但是当使用 3 或 4 个 getlines() 时,对 length_line = getline(&amp;line_2, &amp;seed, cfile) 的调用被要求存储一个长度为 2 的 char* ('+\n'),同时得到 (错误信息)指针line_2 已经足够大(line_1 的大小)。


所以(简单的)解决方案是

%%cython
from libc.stdio cimport FILE, fopen, fclose, getline
    
def fastq_reader(early_stop=10):
    cdef const char* fname = b'/path/to/file'
    cdef FILE* cfile
    cfile = fopen(fname, "rb")

    cdef:
        char * line_0 = NULL
        char * line_1 = NULL
        char * line_2 = NULL
        char * line_3 = NULL
        # One variable for each line pointer
        size_t n_0 = 0
        size_t n_1 = 0
        size_t n_2 = 0
        size_t n_3 = 0
        ssize_t length_line
        unsigned long long line_nb = 0

    while True:
        # Reading the same file (same cfile), but line_x and n_x by pairs)
        length_line = getline(&line_0, &n_0, cfile)  
        if length_line < 0: break
        
        length_line = getline(&line_1, &n_1, cfile)
        if length_line < 0: break
        
        length_line = getline(&line_2, &n_2, cfile)
        if length_line < 0: break
        
        length_line = getline(&line_3, &n_3, cfile)
        if length_line < 0: break

        line_nb += 4
        if line_nb > early_stop:
            break

    fclose(cfile)
    return line_nb

fastq_reader(early_stop=20000)

感谢您指出我的错误。

【讨论】:

以上是关于可以在循环中多次使用 getline() 吗? - Cython,文件读取的主要内容,如果未能解决你的问题,请参考以下文章

在 C++ 中,当一个数组的元素在循环中多次使用时,将其分配给另一个元素会更好吗?

vim 嵌套单行循环中断命令

c ++ getline()在多次调用时不等待来自控制台的输入

遇到换行符时使用 getline 退出循环

std::getline 在 for 循环中不起作用

如何强制getline()一次输入一行[重复]