python爬虫

Posted yellowhat

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫相关的知识,希望对你有一定的参考价值。

根据特定的需求,抓取指定的数据

代替浏览器上网

  网页的特点:

    1、网页都有自己唯一的URL

    2、网页内容都是html结构

    3、使用的都是http或https协议

  爬虫步骤:

    1、给一个URL

    2、写程序,模拟浏览器访问URL

    3、解析内容,提取数据

  环境:

    windows环境、linux环境

    python3.6   64位

  使用的工具:

    1、库

      urllib requests bs4

    2、解析网页内容的知识

      正则表达式、bs4、xpath、jsonpath

    3、涉及到动态html

      selenium+phantomjs、chromeheadless

    4、scrapy框架

    5、scrapy-redis组件

    6、涉及到爬虫-反爬虫-反反爬虫的一些内容

      UA、代理、验证码、动态页面等

http协议

     

以上是关于python爬虫的主要内容,如果未能解决你的问题,请参考以下文章

Python 爬虫的入门教程都有哪些值得推荐的?

求编程大佬 Python 爬虫

Python为啥叫爬虫?

python爬虫最全总结

python爬虫最全总结

Python为啥会被叫爬虫?