Python爬虫学习之获取网页源码

Posted 2020-09-18

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python爬虫学习之获取网页源码相关的知识，希望对你有一定的参考价值。

　　偶然的机会，在知乎上看到一个有关爬虫的话题<利用爬虫技术能做到哪些很酷很有趣很有用的事情？>,因为强烈的好奇心和觉得会写爬虫是一件高大上的事情，所以就对爬虫产生了兴趣。

　　关于网络爬虫的定义就不多说了，不知道的请自行点击查看 =>百度百科网络爬虫，维基百科网络爬虫

　　有很多编程语言都可以编写网络爬虫，只不过各有各的优缺点，这里我选择用Python语言编写爬虫，因为Python是一门非常适合用来编写爬虫的语言，用它实现爬虫的代码量相对其他语言要少很多，并且python语言对网络编程这类模块的封装特别的好，它的语言特点使得很多程序员愿意用其编写程序。为了学习爬虫，我接触了Python这门语言，并且在不断深入学习中，把它于爬虫相结合起来，以便于实现爬虫。我学习并且使用的版本是 Python3.

　　学习网络爬虫需要先了解一些基础知识：

1. 　　HTML 用于了解整个网页的构成，方便从网页中爬取需要的东西
2. 　　HTTP 协议，用于了解网址的构成，以便于解析URL
3. 　　Python 用于编写相关的程序以实现爬虫

　　我所学到的第一个爬虫程序就是爬取网页的源码。不要以为获取网页源码是一个非常小而简单的程序，它是爬虫的基础，至关重要。下面是我自己理解并实现的代码，若有不对的地方请指出，以便学习改进。

1 # -*- coding:utf-8 -*-          #设置编码类型为utf-8
2 import requests                 #导入相关的请求模块
3 
4 url = ‘http://www.jianshu.com/‘  #要获取的网页网址(简书首页)
5 response = requests.get(url)    #通过requests中的get()获取网页连接的状态码
6 content = response.text         #通过text从返回的状态码中获取网页的信息
7 print(content)                  #把源码输出到控制台

以上是关于Python爬虫学习之获取网页源码的主要内容，如果未能解决你的问题，请参考以下文章

python学习之爬虫理论总结

python入门学习之Python爬取最新笔趣阁小说

Python爬虫学习之正则表达式爬取个人博客

爬虫学习之webmagic源码剖析

爬虫概念与编程学习之如何爬取网页源代码

python 爬虫 scrapy学习之查看确认爬虫获取的内容查看蜘蛛看到的是否和你看到的一致