python爬虫

Posted 2021-01-29 yellowhat

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬虫相关的知识，希望对你有一定的参考价值。

根据特定的需求，抓取指定的数据

代替浏览器上网

　　网页的特点：

　　　　1、网页都有自己唯一的URL

　　　　2、网页内容都是html结构

　　　　3、使用的都是http或https协议

　　爬虫步骤：

　　　　1、给一个URL

　　　　2、写程序，模拟浏览器访问URL

　　　　3、解析内容，提取数据

　　环境：

　　　　windows环境、linux环境

　　　　python3.6 　　64位

　　使用的工具：

　　　　1、库

　　　　　　urllib requests bs4

　　　　2、解析网页内容的知识

　　　　　　正则表达式、bs4、xpath、jsonpath

　　　　3、涉及到动态html

　　　　　　selenium+phantomjs、chromeheadless

　　　　4、scrapy框架

　　　　5、scrapy-redis组件

　　　　6、涉及到爬虫-反爬虫-反反爬虫的一些内容

　　　　　　UA、代理、验证码、动态页面等

http协议

以上是关于python爬虫的主要内容，如果未能解决你的问题，请参考以下文章