Python 爬虫,怎么将元素内容一一对应

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 爬虫,怎么将元素内容一一对应相关的知识,希望对你有一定的参考价值。

参考技术A Python 爬虫,怎么将元素内容一一对应
使用正则匹配,<div>.*?<span>(.*?)</span>.*?(<p>.*?</p>)?.*?</div>
参考技术B 你稍微给一段html源码,看不见源码别人也不知道怎么对应啊

python 爬虫加入线程池问题

我写了个python爬虫,因为考虑到效率的问题,想加入线程池,就是将抓取到的100个URL加入到队列里,然后开启10个线程去队列里取URL同时处理URL对应的内容,应该怎么实现呢!大神求救啊!
就是我的爬虫是单线程的~怎么实现多线程想把第一步爬取的URL加入到队列后,创建多个线程去处理相关页面的抓取~
不会写了

参考技术A

大致思路就是下面了,如果这都看不懂,转行吧。

import threading
import Queue
class MyThread(threaing.Thread):
    def __init__(self, queue, name=None):
        self._queue = queue
        if name:
            self.name = name
        pass
    def run(self):
        while q.empty():
            pass

queue = Queue()
for i in xrange(100):
    queuq.put(i)
threads = []
for i in xrange(10):
    threads.append(MyThread(queue, str(i)))
for i in threads:
    i.start()

以上是关于Python 爬虫,怎么将元素内容一一对应的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫,有个网页点击之后才会出现标签,这种元素怎么爬,xpath有,但是定位不到,和frame无关

页面内容解析

java爬虫怎么抓取js动态生成的内容

python怎么获取list的某个元素的位置

python爬虫----XPath

如何使用python爬虫获取css伪元素例如:before