使用python编程处理大量数据,效率太慢怎么解决

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用python编程处理大量数据,效率太慢怎么解决相关的知识,希望对你有一定的参考价值。

我的程序是这样的
while i<10000000
if a[i]==a[i+1]:
del a[i+1]
if a[i]<a[i+1]:
if a[i+1]<=a[i+2]:
del a[i+1]
l=l-1
else : i=i+1
if a[i]>a[i+1]:
if a[i+1]>=a[i+2]:
del a[i+1]
l=l-1
else : i=i+1
a是一个一维数组,已经存有上千万个数据。
运行的时候速度很慢,怎么解决这个问题~

既然存有上千万个数据,为什么不使用数据库呢?
使用小型的sqlite数据库,加上适当的索引、筛选,肯定能大大提高数据处理速度。
python也自身带有处理sqlite数据库的模块,极其方便。
参考技术A 循环本身是没有什么耗时的;恐怕资源消耗于数字a的反复调整变化上;
如果内存资源充裕的话建议不对数组a进行del操作,而是顺序地将满足条件的数据添加到新数组中。追问

不知道怎么编

追答

给你一段伪代码参考一下:


a, cpy, skips = range(10000000), [], 0
L = len(a)
for i, element in enumerate(a):
    if skips:
        # 跳过若干已经判断要跳过的元素
        skips -= 1
        continue
    
    # 用你的业务逻辑判断后续跳过几个元素
    j = i+1
    while j < L:
        if yourbusinesslogic(i, j):
            skips += 1
        else:
            break
        j += 1
    
    # 添加当前元素到副本列表
    cpy.append(element)

追问

我试了
原来比如a=[1,2,3,4,5,6,8,5,4,3,9,8,1]
运算后
cpy=[1,3,5,8,4,3,9,8,1]
结果还是不符合

追答#!/usr/bin/python
# encoding: utf-8

a=[1,2,3,4,5,5,5,6,8,8,5,4,4,3,9,8,1]
L = len(a)

def businesslogic(i, j):
    if j >= L-1:
        return False
    if a[i] == a[j]:
        return True
    if a[i] < a[j] <= a[j+1]:
        return True
    if a[i]>a[j]>=a[j+1]:
        return True

print a
cpy, skips = [], 0
for i, element in enumerate(a):
    if skips:
        # 跳过若干已经判断要跳过的元素
        skips -= 1
        continue
     
    # 用你的业务逻辑判断后续跳过几个元素
    j = i+1
    while j < L:
        if businesslogic(i, j):
            skips += 1
        else:
            break
        j += 1
     
    # 添加当前元素到副本列表
    cpy.append(element)

print cpy


>python "baidu.py"
[1, 2, 3, 4, 5, 5, 5, 6, 8, 8, 5, 4, 4, 3, 9, 8, 1]
[1, 8, 3, 9, 1]
>

is it?

本回答被提问者采纳
参考技术B 用cython加速可能会好点。 参考技术C 将数据分片处理是不是好些。追问

这个方法可行

python运行速度慢怎么办

yxhtest7772017-07-18

关注

分享

 697     2

python运行速度慢怎么办?6个Python性能优化技巧



Python是一门非常酷的语言,因为很少的Python代码可以在短时间内做很多事情,并且,Python很容易就能支持多任务和多重处理。

Python的批评者声称Python性能低效、执行缓慢,但实际上并非如此:尝试以下6个小技巧,可以加快Python应用程序。

关键代码可以依赖于扩展包

Python使许多编程任务变得简单,但是对于很关键的任务并不总是提供最好的性能。使用C、C++或者机器语言扩展包来执行关键任务能极大改善性能。这些包是依赖于平台的,也就是说,你必须使用特定的、与你使用的平台相关的包。简而言之,该解决方案提供了一些应用程序的可移植性,以换取性能,您可以获得只有通过直接向底层主机编程。

下面这些扩展包你可以考虑添加到你的个人扩展库中:

Cython

PyInlne

PyPy

Pyrex

这些包有不同的作用和执行方式。例如,Pyrex 让Python处理一些内存任务变得简单高效;PyInline可以直接让你在Python应用程序中使用C代码,虽然内联代码被单独编译,但是如果你能高效的利用C代码,它可以在同一个地方处理每一件事情。

使用关键字排序

有很多古老的Python代码在执行时将花费额外的时间去创建一个自定义的排序函数。最好的排序方式是使用关键字和默认的sort()方法。

优化循环

每一种编程语言都强调循环语句的优化,Python也是一样的。尽管你可以依赖于丰富的技术让循环运行的更快,然而,开发者经常忽略的一个方法是避免在循环内部使用点拼接字符串。

使用新版本

任何一个在线上搜索Python资料的人都会发现无数关于Python版本迁移的信息。通常,Python每一个版本都针对之前的一个版本做了优化和改进,以让Python运行的更快。限制因素是你喜欢的函数库是否也针对Python的新版本做了改进。

当你使用了新的函数库,获得了Python的新版本,你需要保证代码依然能够运行,检查应用,修正差异。然后,如果你仅仅是
参考技术A 可以采用:
多线程、多进程、协程、异步

以上是关于使用python编程处理大量数据,效率太慢怎么解决的主要内容,如果未能解决你的问题,请参考以下文章

python运行速度慢怎么办

QT中query.next()执行速度太慢,怎么办,当使用while(query.next())的时候,速度特别慢,怎么解决?

使用pandas模块帮助朋友处理mysql中的重复数据

使用Python的线性回归问题,怎么解决

提高python执行效率的方法?

我的电脑上网时速度太慢,显示"虚拟内存太小",请问该怎么处理?