如何在python中手动管理内存?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何在python中手动管理内存?相关的知识,希望对你有一定的参考价值。
当我同时运行我的程序(网络爬虫)时,它通过我的系统需要不同数量的内存或内存,我还测试了其他网络爬虫,我的网络爬虫是ram的两倍,所以我的问题是如何我可以在python中手动管理内存或ram,(如果可能的话)?
这是我的代码: -
from bs4 import BeautifulSoup
import requests
import MySQLdb as sql
import time
import warnings
print("starting")
warnings.filterwarnings('ignore')
db = sql.connect("localhost", "root", "arpit", "website")
cursor = db.cursor()
db.autocommit(True)
print("connected to database")
url = "http://www.example.com"
extension = ".com"
print("scrapping url -",url)
r = requests.head(url)
cursor.execute("insert ignore into urls(urls,status,status_code)
values(%s,'pending',%s)", [url, r.status_code])
cursor.execute("select status from urls where status ='pending' limit 1")
result = str(cursor.fetchone())
while (result != "None"):
cursor.execute("select urls from urls where status ='pending' limit 1")
result = str(cursor.fetchone())
s_url = result[2:-3]
cursor.execute("update urls set status = 'done' where urls= %s ", [s_url])
if "https" in url:
url1 = url[12:]
else:
url1 = url[11:]
zone = 0
while True:
try:
r = requests.get(s_url,timeout=60)
break
except:
if s_url == "":
print("done")
break
elif zone >= 4:
print("this url is not valid -",s_url)
break
else:
print("Oops! may be connection was refused. Try again...",s_url)
time.sleep(0.2)
zone = zone + 1
soup = BeautifulSoup(r.content.lower(), 'lxml')
links = soup.find_all("a")
for x in links:
a = x.get('href')
if a is not None and a != "":
if a != "" and a.find("
") != -1:
a = a[0:a.find("
")]
if a != "" and a[-1] == "/":
a = a[0:-1]
if a != "":
common_extension = [',',' ',"#",'"','.mp3',"jpg",'.wav','.wma','.7z','.deb','.pkg','.rar','.rpm','.tar','.zip','.bin','.dmg','.iso','.toast','.vcd','.csv','.dat','.log','.mdb','.sav','.sql','.apk','.bat','.exe','.jar','.py','.wsf','.fon','.ttf','.bmp','.gif','.ico','.jpeg','.png','.part','.ppt','.pptx','.class','.cpp','.java','.swift','.ods','.xlr','.xls','.xlsx','.bak','.cab','.cfg','.cpl','.dll','.dmp','.icns','.ini','.lnk','.msi','.sys','.tmp','.3g2','.3gp','.avi','.flv','.h264','.m4v','.mkv','.mov','.mp4','.mpg','.vob','.wmv','.doc','.pdf','.txt']
for ext in common_extension:
if ext in a:
a = ""
break
if a != "":
if a[0:5] == '/http':
a = a[1:]
if a[0:6] == '//http':
a = a[2:]
if a[0:len(url1) + 12] == "https://www." + url1:
cursor.execute("insert ignore into urls(urls,status,status_code) values(%s,'pending',%s)",
[a, r.status_code])
elif a[0:len(url1) + 11] == "http://www." + url1:
cursor.execute("insert ignore into urls(urls,status,status_code) values(%s,'pending',%s)",
[a, r.status_code])
elif a[0:len(url1) + 8] == "https://" + url1:
cursor.execute("insert ignore into urls(urls,status,status_code) values(%s,'pending',%s)",
[url + (a[(a.find(extension + "/")) + 4:]), r.status_code])
elif a[0:len(url1) + 7] == "http://" + url1:
cursor.execute("insert ignore into urls(urls,status,status_code) values(%s,'pending',%s)",
[url + (a[(a.find(extension + "/")) + 4:]), r.status_code])
elif a[0:2] == "//" and a[0:3] != "///" and "." not in a and "http" not in a and "www." not in a:
cursor.execute("insert ignore into urls(urls,status,status_code) values(%s,'pending',%s)",
[url + a[1:], r.status_code])
elif a[0:1] == "/" and a[0:2] != "//" and "." not in a and "http" not in a and "www." not in a:
cursor.execute("insert ignore into urls(urls,status,status_code) values(%s,'pending',%s)",
[url + a[0:], r.status_code])
elif 'http' not in a and 'www.' not in a and "." not in a and a[0] != "/":
cursor.execute("insert ignore into urls(urls,status,status_code) values(%s,'pending',%s)",
[url + '/' + a, r.status_code])
cursor.execute("alter table urls drop id")
cursor.execute("alter table urls add id int primary key not null
auto_increment first")
print("new id is created")
你的代码内存效率很低,因为你正在进行大量的切片 - 而且因为字符串是不可变的,所以每个切片都会分配一个新对象。
例如:
if a[0:5] == '/http'
a = a[1:]
分配一个新的字符串,将a
中的0
复制到5
,将它与'/http'
进行比较,并将其丢弃;此外,如果测试相等,它会分配一个新的字符串,将a
从1
复制到它上面,然后扔掉a
。如果a
很长,或者如果这种情况发生很多,这可能会成为一个很大的问题。
查看memoryview
s - 这是一种在没有复制它们的情况下切割字符串(嗯,Python 3中的bytes
)的方法。
您可以通过许多其他方式优化代码:
- 不是为每个链接重新定义
common_extension
,而是在循环之前定义一次。 - 而不是
a[0:5] == '/http'
,使用a.startswith('/http')
。 - 而不是前4个
url1
比较,使用像re.match('https?://(www.)?' + re.escape(url1), a)
这样的正则表达式。 如果你这样做,而不是连接'https?://(www.)?'
和re.escape(url1)
为每个链接,在循环之前做一次,甚至re.compile
那里的正则表达式。
除了创建和删除对象之外,您无法直接在Python中管理内存,因为您无法分配和/或释放内存块。你可以做的是使用工具来了解代码的哪些部分使用了多少内存。有关详细信息,请参阅https://www.pluralsight.com/blog/tutorials/how-to-profile-memory-usage-in-python
在python中,限制内存使用的方法显然不是创建大型对象列表或其他数据结构。使用回调,产量和/或其他编码实践来限制结构在内存中花费的时间。
此外,我建议您将代码提交给代码审查SE,我认为他们也可以提供帮助。
简短的回答是,您无法手动管理内存。但是,你的问题应该是,我如何减少Python使用的内存量?
首先,要知道程序分配的内存量与使用量之间存在差异。
其次,避免分配你不需要的内存。每个切片操作都会创建一个新的str
对象。相反,使用startswith
方法:
if not a:
if a.startswith('/http'):
a = a[1:]
if a.startswith('//http'):
a = a[2:]
if a[.startswith("https://www." + url1):
cursor.execute("insert ignore into urls(urls,status,status_code) values(%s,'pending',%s)",
[a, r.status_code])
等等
以上是关于如何在python中手动管理内存?的主要内容,如果未能解决你的问题,请参考以下文章
如何使用模块化代码片段中的LeakCanary检测内存泄漏?