爬虫—詹姆士(20161014)

Posted wxq201810

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫—詹姆士(20161014)相关的知识,希望对你有一定的参考价值。

什么是爬虫?
爬虫:就是抓取网页数据的程序。
网页的三大特征:
1.确定对方位置。 **(URL(统一资源定位符),理解成网页或资源地址。
2.协议联系的方式(微信,打电话) **HTTP/HTTPS(超文本传输协议)
3.语言的选择 **html(超文本标记语言)

浏览器用来干嘛的? 解释器(HTML)

Python用来做爬虫?
JAVA:生态圈非常完善。重构(改写)成本比较高。
C/C++:运行效率以及性能几乎是最强的,学习成本太高了。
php:天生不是用来做爬虫的,对多线程和异步的支持不是很好。
Python:语法非常优美,代码简介,开发效率高,支持的模块以及库很多。

爬虫的分类:
1.通用爬虫:搜索引擎用的爬虫系统(百度,谷歌)
2.聚焦爬虫:针对某种内容的爬虫。

爬虫思路:
1.获取URL

2.发起请求

3.得到反馈作调整

4.保存


























以上是关于爬虫—詹姆士(20161014)的主要内容,如果未能解决你的问题,请参考以下文章

pandas字符串分割str.split()函数

一周热门电影20170510

15《Python 原生爬虫教程》爬虫和反爬虫

Python爬虫入门:爬虫基础了解

Python爬虫|网络爬虫简介

Python爬虫|网络爬虫简介