python爬虫多线程爬虫
Posted 一棵树0108
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫多线程爬虫相关的知识,希望对你有一定的参考价值。
关注:程序运行速度---->主要是由cpu(大脑)来决定。
想要提高程序的运行速度----->提高cpu利用率。
提高cpu的利用率由两种途径:
1、让cpu不休息。cup每时每刻都在处理任务,这个任务可以理解为线程。这种情况就叫做多线程。
2、cpu都是分核。每个核就是一个小脑袋。可以理解一心多用。让每个核都作用起来,去干不同的事情,这种方法是就叫多进程。
一、程序、线程、进程
1、程序:一个应用就可以理解为一个程序。
2、进程:程序运行资源分配的最小单位,一个程序可以有多个进程。
3、线程:cup最小的调度单位,必须依赖进程存在。线程是没有独立资源的,所有的线程共享他所在进程的所有资源。
二、什么是多线程?
程序中包含多个并行的线程来完成不同的任务。
三、python中的threading模块
1、创建多线程的第一种方法
1 t = threading.Thread( 2 target = 方法名, 3 args = (,) # 参数列表,元组 4 ) 5 t.start() # 启动线程
2、查看线程的数量:threading.enumerate()
1 enumerate( 2 可迭代对象, 3 i, # 表示索引从i开始。 4 ) # python的内置函数:枚举可迭代对象,同时获取迭代对象的每个值和其索引。
可迭代对象:有__iter__属性的对象。
迭代器:有__iter___和__next__属性的对象。
这两个如何转化:迭代器=iter(可迭代对象)
可迭代对象都有:list,tuple,dict,str,bytesarray,set,fp
3、创建第二种方法: 自定线程类
(1)python的继承
①继承是通过在定义类的时候,类后面的()中添加父类来实现的。
②被继承的类称为父类,继承的类称为子类。
③子类继承父类所有非私有的属性及方法。
④如果子类重写父类的属性和方法,子类默认是优先拿自己的。
(2)用自定义线程的步骤
①继承threading.Thread
②重写run方法:
③实例化这个类,就相当于创建了一个线程。
t = MyThread()
t.start()---默认执行就是run方法里面的内容。
④如果自定义线程要传参数,这时候必须要写init方法。必须在init中先调用父类的init(初始化父类。)
(3)调用父类的init方法有两种方法
super().__init__()
threading.Tread.__init__(self)
4、线程的名称:线程.name查看线程的名称
如果没有给线程自定义名称,默认线程的名称是:Thread-1,Thread-2,....
自定义名称:
t = MyThread(name=str(i))
t.start()
5、线程的五种状态
线程的执行顺序是混乱:线程是cup调度的最小单位,线程的执行完全是由cpu调度所决定的。cpu如何来调度呢?是由线程状态决定。
6、线程间公用数据的共享问题
多个线程多全局变量的更改,容易造成数据的混乱。
解决办法:将线程对公有数据更改部分,用互斥锁锁起来,这两就可以解决这种问题。
多线程避免多个线程同时处理公有变量。——解耦。
1 import threading 2 3 mutex = threading.Lock() # 创建一个锁对象 4 5 if mutex.acquire(): # 上锁 6 7 ‘‘‘ 8 公有数据的处理代码 9 ‘‘‘
mutex.release()#释放锁
mutex.acquire(True):默认情况就是True,线程到锁这里如果没有获取锁状态,就会被阻塞。
mutex.acquire(False):线程到锁这里如果没有获取锁状态,不会被阻塞。
四、多进程和多线程
1、并发和并行
2、多线程和多进程的优缺点
多线程
(1)多线程的优点
所有线程可以直接共享内存和变量,线程之间的通信变得容易。
线程方式消耗的总资源比进程方式少。
(2)多线程缺点
程序逻辑和控制方式复杂。
线程之间的同步和加锁比较麻烦。
一个线程崩溃可能影响到整个程序的稳定性。
多进程
(1)多进程优点
每个进程都相互独立,不影响主程序的稳定性,子进程崩溃,主程序收到影响比较小。
通过增加cup,可以轻松扩展性能。
每个子进程都有2GB地址空间和相关资源,总体性能能够达到的上限非常大。
(2)多进程的缺点
逻辑控制复杂,需要和主程序交互。----进程之间通信是很困难度。
如果有大量数据传送,需要跨进程边界。适合小数量数据传送的程序。
多进程和多线程如何选择:在实际开发中,选择多线程还是多进程,应该从具体实际开发来进行选择。最好是多进程和多线程结合,即根据实际的需求,每个cpu开启一个子进程,这个子进程开启多个线程进程数据处理。
以上是关于python爬虫多线程爬虫的主要内容,如果未能解决你的问题,请参考以下文章
多线程——爬取以太坊Solidity智能合约代码的简约Python爬虫
Python爬虫编程思想(138):多线程和多进程爬虫--从Thread类继承