python爬虫:带你了解爬虫应当怎么做

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫:带你了解爬虫应当怎么做相关的知识,希望对你有一定的参考价值。

参考技术A 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

python2
爬虫:从网页上采取数据
爬虫模块:urllib,urllib2,re,bs4,requests,scrapy,xlml
1.urllib
2.request
3.bs4
4.正则re
5种数据类型
(1)数字Number
(2)字符串String
(3)列表List[] 中文在可迭代对象就是unicode对象
(4)元组Tuple()
(5)字典Set
爬虫思路:
1.静态 urlopen打开网页------获取源码read
2.requests(模块) get/post请求----获取源码 text()方法 content()方法(建议)
3.bs4 能够解析html和XML
-- coding:utf-8 –
from bs4 import BeautifulSoup
1
html=“

2018.1.8 14:03


soup=BeautifulSoup(html,‘html.parser’) #解析网页
print soup.div
2从文件中读取
html=’’
soup=BeautifulSoup(open(‘index.html’),‘html.parser’)
print soup.prettify()
4.获取所需信息

以上是关于python爬虫:带你了解爬虫应当怎么做的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫入门:爬虫基础了解

带你玩转Python爬虫(胆小者勿进)千万别做坏事·······

什么是Python网络爬虫?带你爬向顶峰

python爬虫超简单攻略,带你写入门级的爬虫

python 爬虫 ip池怎么做

了解Python可以做的那些事