用python 写网络爬虫--零基础

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用python 写网络爬虫--零基础相关的知识,希望对你有一定的参考价值。

在爬取网站之前,要做以下几项工作

 

1.下载并检查 网站的robots.txt文件 ,让爬虫了解该网站爬取时有哪些限制。

2.检查网站地图 

 

3.估算网站大小

利用百度或者谷歌搜索 Site:example.webscraping.com

 

结果如下  

找到相关结果数约5个

 

数字为估算值。网站管理员如需了解更准确的索引量

 

 

4.识别网站所使用的技术

使用python 中的builtwith 模块

下载地址

https://pypi.python.org/pypi/python-builtwith

 

运行  pip install builtuith

 

安装完成后 使用命令

 

Import builtwith

Builtwith.parse(http://example.webscraping.com)

以上是关于用python 写网络爬虫--零基础的主要内容,如果未能解决你的问题,请参考以下文章

用python零基础写爬虫--编写第一个网络爬虫 -2 设置用户代理

用python写网络爬虫 -从零开始 2 编写网站地图爬虫

用python写网络爬虫 -从零开始 1 编写第一个网络爬虫

用python写网络爬虫 -从零开始 3 编写ID遍历爬虫

零基础自学用Python 3开发网络爬虫: 伪装浏览器君

零基础写python爬虫之使用Scrapy框架编写爬虫