python爬虫
Posted yellowhat
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫相关的知识,希望对你有一定的参考价值。
根据特定的需求,抓取指定的数据
代替浏览器上网
网页的特点:
1、网页都有自己唯一的URL
2、网页内容都是html结构
3、使用的都是http或https协议
爬虫步骤:
1、给一个URL
2、写程序,模拟浏览器访问URL
3、解析内容,提取数据
环境:
windows环境、linux环境
python3.6 64位
使用的工具:
1、库
urllib requests bs4
2、解析网页内容的知识
正则表达式、bs4、xpath、jsonpath
3、涉及到动态html
selenium+phantomjs、chromeheadless
4、scrapy框架
5、scrapy-redis组件
6、涉及到爬虫-反爬虫-反反爬虫的一些内容
UA、代理、验证码、动态页面等
http协议
以上是关于python爬虫的主要内容,如果未能解决你的问题,请参考以下文章