不用SCRAPY也可以应用selector
Posted xkdn
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了不用SCRAPY也可以应用selector相关的知识,希望对你有一定的参考价值。
在PY文件中:
from scrapy.selector import Selector
from scrapy.http import htmlResponse
url="https://m.mm131.net/" r=requests.get(url) r.encoding=‘gbk‘ #根据情况可设置为utf-8 body=r.text tx=Selector(text=body).xpath(‘//h2[@class="mm-title"]/text()‘).extract() tx1=Selector(text=body).xpath(‘//article[@class="post"]/div‘).extract() tx1=Selector(text=body).xpath(‘//article[@id="post-1"]/div‘).extract() tx2=re.findall(‘src="(http.*?.jpg)"‘,str(tx1)) tx4=re.findall(‘data-img="(http.*?.jpg)"‘,str(tx1)) #tx2=re.findall(‘[^(gif)]‘,str(tx2)) tx3=re.findall(‘href="(.*?)"‘,str(tx1)) #print(tx4) #print(tx2) #print(tx3) #print(tx1) for aa in list(set(tx4)): adir=aa.split(‘/‘)[-2] name=aa.split(‘/‘)[-1] time.sleep(3) if os.path.exists(wz+adir+"/"): pass else: os.mkdir(wz+adir+"/") #break fname=wz+adir+"/"+adir+name print(fname) baocun(aa,fname) #break
以上是关于不用SCRAPY也可以应用selector的主要内容,如果未能解决你的问题,请参考以下文章
scrapy知识补充--scrapy shell 及Spider
使用 Scrapy Selector 提取包含其他元素内容的段落文本
Python爬虫之Scrapy框架系列(10)——Scrapy选择器selector