爬虫——线程进程

Posted siplips

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫——线程进程相关的知识,希望对你有一定的参考价值。

进程

使用

  • 导入类库
import multiprocessing
  • 创建进程
p1 = multiprocessing.Process(target=test1) 

Process参数:group=None,target=None, name=None, args=(), kwargs={})

  • 全局变量
import time, os
import multiprocessing

nums = [11, 22, 33]

def test():
    nums.append(44)
    print(在进程1中nums=%s‘ % str(nums),id(nums))
    time.sleep(3)

def test2():
    print(在进程2中nums=%s‘ % str(nums),id(nums))

def main():
    print(‘----in 主进程 pid=%d----父进程pid=%d----‘ % (os.getpid(), os.getppid()))
    p = multiprocessing.Process(target=test)
    p.start()

    p2 = multiprocessing.Process(target=test2)
    p2.start()
    # test()
    # test2()

if __name__ == ‘__main__‘:
    main()

进程间全局变量不共享,因为进程是复制出来的

线程

使用

  • 导入类库
import threading
  • 创建线程
t1 = threading.Thread(target=test1,args=(1000000,))

Thread参数:group=None,target=None, name=None,args=(), kwargs=None, *, daemon=None

  • 全局变量
import time,threading

g_num = 0
mutex = threading.Lock()

def test1(num):
    global g_num
    # mutex.acquire()     
    for i in range(num):
        mutex.acquire()
        g_num += 1
        mutex.release()
    # mutex.release()
    print(‘-------in test1 g_num=%d-----‘ % g_num)

def test2(num):
    global g_num
    # mutex.acquire()     
    for i in range(num):
        mutex.acquire()
        g_num += 1
        mutex.release()
    # mutex.release()
    print(‘-------in test2 g_num=%d-----‘ % g_num)

def main():
    t1 = threading.Thread(target=test1,args=(1000000,))
    t2 = threading.Thread(target=test2,args=(1000000,))
    t1.start()
    t2.start()
    time.sleep(3)
    print(‘-------------in main Thread g_num = %d----‘ % g_num)

if __name__ == ‘__main__‘:
    main()

临界区,在同一时间只有一个程序进入代码块执行,一般括住改变的地方

如果其他线程调用acquire,当前线程则进入等待

threading.RLock() 递归锁 threading.Condition 信号量或条件锁

  • 生产者消费者模式

生产者消费者模式是线程间通信的一种应用

在使用数据结构的时候确定是否是线程安全,Queue本身是线程安全的,列表list([])、字典dic({})都不是线程安全的

def set_value(q):
    index = 0
    while True:
        q.put(index)
        index += 1
        q.put(index)
        index += 1
        time.sleep(2)

def get_value(q):
    while True:
        print(消费者获取数据:‘,q.get())   #若队列为空就sleep休眠,直到队列有数据

def main():
    q = Queue(4)
    t1 = threading.Thread(target=set_value,args=[q])
    t2 = threading.Thread(target=get_value,args=[q])
    t1.start()
    t2.start()

以上是关于爬虫——线程进程的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫案例演示:Python多线程多进程协程

Python爬虫编程思想(138):多线程和多进程爬虫--从Thread类继承

Python爬虫编程思想(138):多线程和多进程爬虫--从Thread类继承

线程学习知识点总结

Python爬虫编程思想(137):多线程和多进程爬虫--Thread类与线程对象

Python爬虫编程思想(137):多线程和多进程爬虫--Thread类与线程对象