第⼀个爬虫案例
Posted ZSYL
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第⼀个爬虫案例相关的知识,希望对你有一定的参考价值。
前言
⾸先,我们还是需要回顾⼀下爬⾍的概念. 爬⾍就是我们通过我们写的程序去抓取互联⽹上的数据资源.
⽐如, 此时我需要百度的资源. 在不考虑爬⾍的情况下, 我们肯定是打开浏览器, 然后输⼊百度的⽹址,紧接着, 我们就能在浏览器上看到百度的内容了.
那换成爬⾍呢? 其实道理是⼀样的. 只不过, 我们需要⽤代码来模拟⼀个浏览器, 然后同样的输⼊百度的⽹址. 那么我们的程序应该也能拿到百度的内容. 对吧~
百度开刀
第一个爬虫大多都是手刃百度
在python中, 我们可以直接⽤urllib模块来完成对浏览器的模拟⼯作~,
直接上代码:
from urllib.request import urlopen
resp = urlopen("http://www.baidu.com") # 打开 百度
print(resp.read().decode("utf-8")) # 打印 抓取到的
内容
是不是很简单呢?
我们可以把抓取到的html内容全部写⼊到⽂件中, 然后和原版的百度进⾏对⽐, 看看是否⼀致
from urllib.request import urlopen
resp = urlopen("http://www.baidu.com") # 打开 百度
# print(resp.read().decode("utf-8")) # 打印 抓取到的内容
with open("baidu.html",mode="w", encoding="utf-8") as f: # 创建⽂件
f.write(resp.read().decode("utf-8")) # 保存在⽂件中
OK ~ 我们成功的从百度上爬取到了⼀个⻚⾯的源代码. 就是这么简单, 就是这么炫酷
你也试⼀下吧~
以上是关于第⼀个爬虫案例的主要内容,如果未能解决你的问题,请参考以下文章
值!一篇博客,容纳11个Python爬虫案例总结,《爬虫100例》专栏第6篇复盘文章
一篇博客,拿下7个爬虫案例,够几天的学习量啦,《爬虫100例》第4篇复盘文章