python爬虫思路

Posted 2020-10-21

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬虫思路相关的知识，希望对你有一定的参考价值。

python2
爬虫：从网页上采取数据
爬虫模块：urllib,urllib2,re,bs4,requests,scrapy,xlml
1.urllib
2.request
3.bs4
4.正则re
5种数据类型
(1)数字Number
(2)字符串String
(3)列表List[] 中文在可迭代对象就是unicode对象
(4)元组Tuple()
(5)字典Set{}
爬虫思路：
1.静态 urlopen打开网页------获取源码read
2.requests(模块) get/post请求----获取源码 text()方法 content()方法(建议)
3.bs4 能够解析HTML和XML
#-- coding:utf-8 --
from bs4 import BeautifulSoup
#1
#html="<div>2018.1.8 14:03</div>"
#soup=BeautifulSoup(html,‘html.parser‘) #解析网页
#print soup.div
#2从文件中读取
html=‘‘
soup=BeautifulSoup(open(‘index.html‘),‘html.parser‘)
print soup.prettify()
4.获取所需信息

以上是关于python爬虫思路的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫实战，完整的思路和步骤（附源码）

Python 爬虫没有思路？可以看看这篇文章

Python入门到精通精品第十章 - 爬虫

python爬虫练习18：爬虫抓取视频思路2

python爬虫--北京市政信件列表

Python开发轻量级爬虫