写爬虫的逻辑思路
Posted -chenxs
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了写爬虫的逻辑思路相关的知识,希望对你有一定的参考价值。
首先定义一个类,然后定义一个逻辑方法run()按顺序写入下面的思路,然后对每一小步用一个方法完成 ,run()方法里面每一步再调用对应的方法。
1.url
- 知道url地址的规律和总得页码数:构造url地址的列表
- start_url,先访问最开始的url,然后按照某种规律循环访问其他的
2.发送请求,获取响应
- requests.get()
- response.content.decode()
3.提取数据
- 返回的是json字符串:json模块
- 返回的是html字符串:lxml模块配合xpath提取数据
4.保存
with open("文件名","a",encoding="utf-8") as f: f.write()
以上是关于写爬虫的逻辑思路的主要内容,如果未能解决你的问题,请参考以下文章