第⼀个爬虫案例

Posted ZSYL

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第⼀个爬虫案例相关的知识,希望对你有一定的参考价值。

第⼀个爬虫案例

前言

⾸先,我们还是需要回顾⼀下爬⾍的概念. 爬⾍就是我们通过我们写的程序去抓取互联⽹上的数据资源.

⽐如, 此时我需要百度的资源. 在不考虑爬⾍的情况下, 我们肯定是打开浏览器, 然后输⼊百度的⽹址,紧接着, 我们就能在浏览器上看到百度的内容了.

那换成爬⾍呢? 其实道理是⼀样的. 只不过, 我们需要⽤代码来模拟⼀个浏览器, 然后同样的输⼊百度的⽹址. 那么我们的程序应该也能拿到百度的内容. 对吧~

百度开刀

第一个爬虫大多都是手刃百度

在python中, 我们可以直接⽤urllib模块来完成对浏览器的模拟⼯作~,

直接上代码:

from urllib.request import urlopen
resp = urlopen("http://www.baidu.com") # 打开 百度
print(resp.read().decode("utf-8")) # 打印 抓取到的
内容

是不是很简单呢?

我们可以把抓取到的html内容全部写⼊到⽂件中, 然后和原版的百度进⾏对⽐, 看看是否⼀致

from urllib.request import urlopen
resp = urlopen("http://www.baidu.com") # 打开 百度
# print(resp.read().decode("utf-8")) # 打印 抓取到的内容
with open("baidu.html",mode="w", encoding="utf-8") as f: # 创建⽂件
	f.write(resp.read().decode("utf-8")) # 保存在⽂件中

在这里插入图片描述
OK ~ 我们成功的从百度上爬取到了⼀个⻚⾯的源代码. 就是这么简单, 就是这么炫酷

你也试⼀下吧~

以上是关于第⼀个爬虫案例的主要内容,如果未能解决你的问题,请参考以下文章

值!一篇博客,容纳11个Python爬虫案例总结,《爬虫100例》专栏第6篇复盘文章

一篇博客,拿下7个爬虫案例,够几天的学习量啦,《爬虫100例》第4篇复盘文章

一篇博客,拿下7个爬虫案例,够几天的学习量啦,《爬虫100例》第4篇复盘文章

8. 爬虫训练场,第一个爬虫目标页设计,单页爬虫案例

Python爬虫开发第1篇爬虫案例

Python爬虫案例50篇-第1篇-csdn开源广场的cookie登录