用python编程读取TXT时,数据大概有1千万条,速度很慢如何解决?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用python编程读取TXT时,数据大概有1千万条,速度很慢如何解决?相关的知识,希望对你有一定的参考价值。

本人初学python.目的是逐行读取数据,放在a的一维数组中。我编的程序如下
a=[]
with open('D:\XX.txt','r') as f:
for line in f:
a.extend(map(float,line.split(' ')))
读取数据量不大的TXT时,没有问题,但是数据量很大,速度就很慢了。是不是我的编程有问题??

两种可选的方式
1:使用yield的懒惰加载,示例代码如下:

123456789101112

def read_in_chunks(file_object, chunk_size=1024): """Lazy function (generator) to read a file piece by piece. Default chunk size: 1k.""" while True: data = file_object.read(chunk_size) if not data: break yield data f = open('really_big_file.dat')for piece in read_in_chunks(f): process_data(piece)

2:使用iter和一个帮助方法:

123456

f = open('really_big_file.dat')def read1k(): return f.read(1024) for piece in iter(read1k, ''): process_data(piece)

推荐使用第一个。
参考技术A 程序没什么问题, 只是内存占用会很大,估计你的机器跑不动. 建议用numpy库来处理, 具体用法请自行百度. 参考技术B 用list慢 而且占空间 比如你开辟大小为10的list 可能是开辟了20空间的array 而且list extend时容量满了会开辟一个更大的空间 然后复制进去 再追加新的内容 你要非用list 就不要a = [] 直接写上大小更好 能减少很多复制的操作追问

你好,可否私下教我~

追答

可以 互相学习嘛

追问

我给你私信了

参考技术C

其实上很简单,两行代码就可以搞定

>>> a=open(r'C:\\Users\\Administrator\\Desktop\\123.txt', 'r+')
>>> print a.readlines()

参考技术D 一千万行,当然慢了。
考虑把文件拆分成多了小问题分别处理。

一千万条(以上)新闻信息,用啥数据库比较合适?

全部是文字,新闻条数在1000万以上,除了Oracle还有其他数据库可用吗?

1千多万这种小数据量推荐MSSQL性价比较高1. 双机做全文搜索2. 建表分区,如果日增量不大的话可以用Hash分区3. 分文件组,文件组下每个ndf 文件大小最好不要超过2GB4. 如果访问量非常高,IO频繁的话,可以再考虑采用多组RAID 10,从硬件上分摊IO5. 考虑数据缓存,最好读取一次就能使用一定时间,避免每个用户都对一个大表进行SELECT,规避文件块热点 参考技术A Access;mySQL;SQLServer;Oracle 参考技术B 用SQL SERVER就可以了,SQL2005 参考技术C Microsoft SQL Server

以上是关于用python编程读取TXT时,数据大概有1千万条,速度很慢如何解决?的主要内容,如果未能解决你的问题,请参考以下文章

kettle迁移千万条数据要几个小时

多线程读取数据库导致连接失败解决方案

python连接mysql循环插入千万条数据脚本

一千万条(以上)新闻信息,用啥数据库比较合适?

第11天 | 12天搞定Python,数据库操作

memcached与redis性能测试总结