爬虫——线程进程
Posted siplips
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫——线程进程相关的知识,希望对你有一定的参考价值。
进程
使用
- 导入类库
import multiprocessing
- 创建进程
p1 = multiprocessing.Process(target=test1)
Process参数:group=None,target=None, name=None, args=(), kwargs={})
- 全局变量
import time, os
import multiprocessing
nums = [11, 22, 33]
def test():
nums.append(44)
print(‘在进程1中nums=%s‘ % str(nums),id(nums))
time.sleep(3)
def test2():
print(‘在进程2中nums=%s‘ % str(nums),id(nums))
def main():
print(‘----in 主进程 pid=%d----父进程pid=%d----‘ % (os.getpid(), os.getppid()))
p = multiprocessing.Process(target=test)
p.start()
p2 = multiprocessing.Process(target=test2)
p2.start()
# test()
# test2()
if __name__ == ‘__main__‘:
main()
进程间全局变量不共享,因为进程是复制出来的
线程
使用
- 导入类库
import threading
- 创建线程
t1 = threading.Thread(target=test1,args=(1000000,))
Thread参数:group=None,target=None, name=None,args=(), kwargs=None, *, daemon=None
- 全局变量
import time,threading
g_num = 0
mutex = threading.Lock()
def test1(num):
global g_num
# mutex.acquire()
for i in range(num):
mutex.acquire()
g_num += 1
mutex.release()
# mutex.release()
print(‘-------in test1 g_num=%d-----‘ % g_num)
def test2(num):
global g_num
# mutex.acquire()
for i in range(num):
mutex.acquire()
g_num += 1
mutex.release()
# mutex.release()
print(‘-------in test2 g_num=%d-----‘ % g_num)
def main():
t1 = threading.Thread(target=test1,args=(1000000,))
t2 = threading.Thread(target=test2,args=(1000000,))
t1.start()
t2.start()
time.sleep(3)
print(‘-------------in main Thread g_num = %d----‘ % g_num)
if __name__ == ‘__main__‘:
main()
临界区,在同一时间只有一个程序进入代码块执行,一般括住改变的地方
如果其他线程调用acquire,当前线程则进入等待
threading.RLock() 递归锁 threading.Condition 信号量或条件锁
- 生产者消费者模式
生产者消费者模式是线程间通信的一种应用
在使用数据结构的时候确定是否是线程安全,Queue本身是线程安全的,列表list([])、字典dic({})都不是线程安全的
def set_value(q):
index = 0
while True:
q.put(index)
index += 1
q.put(index)
index += 1
time.sleep(2)
def get_value(q):
while True:
print(‘消费者获取数据:‘,q.get()) #若队列为空就sleep休眠,直到队列有数据
def main():
q = Queue(4)
t1 = threading.Thread(target=set_value,args=[q])
t2 = threading.Thread(target=get_value,args=[q])
t1.start()
t2.start()
以上是关于爬虫——线程进程的主要内容,如果未能解决你的问题,请参考以下文章
Python爬虫编程思想(138):多线程和多进程爬虫--从Thread类继承
Python爬虫编程思想(138):多线程和多进程爬虫--从Thread类继承