如何有效地从大 txt 文件中读取字符串
Posted
技术标签:
【中文标题】如何有效地从大 txt 文件中读取字符串【英文标题】:How to efficiently read only strings from a big txt file 【发布时间】:2016-10-22 14:21:31 【问题描述】:我有一个非常大的 .txt 文件 (9 MB)。其中的单词是这样存储的:
да 2337093
е 1504540
не 1480296
се 1212312
.txt 文件中的每一行都由一个字符串、一个空格和一个数字组成。 我只想获取单词并将它们存储在字符串数组中。我看到在这里使用正则表达式会有点过头了,但是由于我不熟悉 c++ 中的流,所以我没有想到另一种方法。
【问题讨论】:
九兆字节不是很大。只需打开它,使用std::getline()
读取每一行,使用find()
定位分隔空间。如果您保证文件的内容总是格式正确,那么您不妨使用operator>>
【参考方案1】:
类似于下面的示例
#include <bits/stdc++.h>
using namespace std;
int main()
vector<string> strings;
ifstream file("path_to_file");
string line;
while (getline(file, line))
strings.push_back(line.substr(0, line.find(" ")));
// Do whatever you want with 'strings' vector
【讨论】:
Don't use bits/stdc++.【参考方案2】:你应该逐行读取文件,并且对于每一行使用字符串的substr()
方法根据空间位置解析一行,你可以使用find()
方法找到分隔符的位置。取空格之前的单词部分并忽略休息。
您可以查看here 的示例。
【讨论】:
没有拆分功能。 我错过了关于 C++ 的问题,但仍有很多可用的 API 用于字符串方法,或者您可以使用substr()
方法制作自己的 API。查看更新的答案。以上是关于如何有效地从大 txt 文件中读取字符串的主要内容,如果未能解决你的问题,请参考以下文章
使用dask有效地从blob存储上的parquet文件中读取一些列[重复]