用python编程读取TXT时，数据大概有1千万条，速度很慢如何解决？

Posted 2023-05-02

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了用python编程读取TXT时，数据大概有1千万条，速度很慢如何解决？相关的知识，希望对你有一定的参考价值。

本人初学python.目的是逐行读取数据，放在a的一维数组中。我编的程序如下
a=[]
with open('D:\XX.txt','r') as f:
for line in f:
a.extend(map(float,line.split(' ')))
读取数据量不大的TXT时，没有问题，但是数据量很大，速度就很慢了。是不是我的编程有问题？？

两种可选的方式
1：使用yield的懒惰加载，示例代码如下：

123456789101112

def read_in_chunks(file_object, chunk_size=1024): """Lazy function (generator) to read a file piece by piece. Default chunk size: 1k.""" while True: data = file_object.read(chunk_size) if not data: break yield data f = open('really_big_file.dat')for piece in read_in_chunks(f): process_data(piece)

2：使用iter和一个帮助方法：

123456

f = open('really_big_file.dat')def read1k(): return f.read(1024) for piece in iter(read1k, ''): process_data(piece)

推荐使用第一个。参考技术A 程序没什么问题, 只是内存占用会很大,估计你的机器跑不动. 建议用numpy库来处理, 具体用法请自行百度. 参考技术B 用list慢而且占空间比如你开辟大小为10的list 可能是开辟了20空间的array 而且list extend时容量满了会开辟一个更大的空间然后复制进去再追加新的内容你要非用list 就不要a = [] 直接写上大小更好能减少很多复制的操作追问

你好，可否私下教我~

追答

可以互相学习嘛

追问

我给你私信了

参考技术C

其实上很简单，两行代码就可以搞定

>>> a=open(r'C:\\Users\\Administrator\\Desktop\\123.txt', 'r+')
>>> print a.readlines()

参考技术D 一千万行，当然慢了。
考虑把文件拆分成多了小问题分别处理。

一千万条(以上)新闻信息，用啥数据库比较合适？

全部是文字，新闻条数在1000万以上，除了Oracle还有其他数据库可用吗？

1千多万这种小数据量推荐MSSQL性价比较高1. 双机做全文搜索2. 建表分区，如果日增量不大的话可以用Hash分区3. 分文件组，文件组下每个ndf 文件大小最好不要超过2GB4. 如果访问量非常高，IO频繁的话，可以再考虑采用多组RAID 10，从硬件上分摊IO5. 考虑数据缓存，最好读取一次就能使用一定时间，避免每个用户都对一个大表进行SELECT，规避文件块热点参考技术A Access；mySQL；SQLServer；Oracle 参考技术B 用SQL SERVER就可以了，SQL2005 参考技术C Microsoft SQL Server

以上是关于用python编程读取TXT时，数据大概有1千万条，速度很慢如何解决？的主要内容，如果未能解决你的问题，请参考以下文章