从文件中读取存入vector的问题

Posted 2023-05-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了从文件中读取存入vector的问题相关的知识，希望对你有一定的参考价值。

有一个问题，我定义了一个类比如叫VIP，类中有一个vector<string>对象用来存储VIP所订购的商品，所以每个VIP变量的vector<string>对象内存储的数据的个数都不一样。现在我把这些个VIP对象存入文件了，接下去我要读取粗来，那么我应该怎么读取才能把所有数据正确的读出来？？就是如何实现把数据都读出来，并都正确地放入vector。

参考技术A 这实际上就是对象序列化的问题了。

在C++中没有非常方便的序列化方式，一般都需要你自己手工来控制对象的存储或构建过程。
像你这个问题，你只能自己在这个类中写存储过程代码了，比如使用文本文件，第一行写入vector的大小，后面每行写入一个string。然后反序列化的时候先读取第一个数字，然后读取后面这么多个string，最后再构建vector，最终构建完整个对象。

没什么太便捷的手段，都要自己手工编写相关代码。虽然C++有一些现成的序列化框架可用，但由于C++本身的语言特性问题，这些框架用起来也都不够方便，而且也只能提供部分辅助功能罢了。和Python等其它语言那种在底层以及基础数据类型上就支持序列化的语言比起来，C++的那些序列化框架真是难用到极点。

没办法，这是C++语言特性决定的。强静态、弱动态的C++搞这种事情是会比较费力。你就把它当作读写文件的练习吧。参考技术B 存入什么文件？这种一般应该用数据库吧

python 读取大文本文件并存入numpy时过于费时的问题及猜测

因需要读取大文本文件（约有1,300,000行，40兆），并简单处理存入numpy数组中，运行过程中发现随读取数据的增加，耗费时间显著增加，稍作修改后运行速度显著提升，不解，记之，希望大家帮忙解惑。

初步猜测（未验证）：在原始代码中对numpy数组进行了vstack，而这个过程可能对已有数组进行了类似遍历的操作，才会出现随数组中数据增加产生时间上的显著增加。

1.原始代码

此代码在前期运行较快，在运行接近4,500行左右时，速度开始逐步变慢，最后花了很长时间也没能运行出结果，不知是何种原因。

def readTXT1(txt_file, separator=\'\\t\'):
    """
    读取单行文本数据（x y z i(or classification)）
    :param txt_file: 待读取的文本
    :param separator: 待读取的文本中的分割符，如空格或制表符
    :return: 返回array数组，一行为一个数据
    """
    point = np.array([])
    with open(txt_file, \'r\') as file:
        for line in file:
            point_tmp = line.split(separator)
            point_tmp = [x.strip() for x in point_tmp if x.strip() != \'\']
            point_tmp = list(map(float, point_tmp))
            point_one = np.array([point_tmp[0], point_tmp[1], point_tmp[2], point_tmp[3]])
            if np.shape(point)[0] > 0:
                point = np.vstack((point, point_one))
            else:
                point = np.array([point_one])
    print(\'% \', txt_file, \'has \', np.shape(point), \'points\')
    return point

2.调整后代码

调整后先将数据存入list中，最后将list转换为array，此方案运行十分流畅，不足半分钟就已经完成读取与转化。相比原始代码只是少了一个判断和一个初始化array，但感觉问题应该不是出在此处，怀疑原始方案运行慢是因为叠置vstack。感觉只有在vstack过程中对已有数组进行了类似遍历的操作，才会出现随数组中数据增加产生时间上的显著增加。

def readTXT2(txt_file, separator=\'\\t\'):
    """
    读取单行文本数据（x y z i(or classification)）
    :param txt_file: 待读取的文本
    :param separator: 待读取的文本中的分割符，如空格或制表符
    :return: 返回array数组，一行为一个数据
    """
    all_points = []
    with open(txt_file, \'r\') as file:
        for line in file:
            point_tmp = line.split(separator)
            point_tmp = [x.strip() for x in point_tmp if x.strip() != \'\']
            point_tmp = list(map(float, point_tmp))
            all_points.append(point_tmp[0:4])
    print(\'list:\', len(all_points))
    point = np.array(all_points)
    print(\'% \', txt_file, \'has \', np.shape(point), \'points\')
    return point

以上是关于从文件中读取存入vector的问题的主要内容，如果未能解决你的问题，请参考以下文章