使用python3 requests和bs4进行爬虫（二）爬取文章

Posted 2023-03-27

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了使用python3 requests和bs4进行爬虫（二）爬取文章相关的知识，希望对你有一定的参考价值。

参考技术A 为了做到更优雅，这次抛弃了urllib库的引用，使用requests和beautifulsoup搭配的方式进行

首先构建一个请求并且响应它

然后呢到上找一篇文章试试手，看一下网页源码找到文章的div

以及找到文章内容，仔细看看内容还挺不错哈哈

可以发现所有的内容都在p标签里面，那么接下来就简单多了只需要

f5运行一下

最后使用codecs库来进行文件操作将文章保存到本地

没错使用上requests和bs4之后爬取文章的工作是那么的轻松呢

效果图

以上是关于使用python3 requests和bs4进行爬虫（二）爬取文章的主要内容，如果未能解决你的问题，请参考以下文章

爬虫简单之二---使用进程爬取起点中文网的六万多也页小说的名字，作者，等一些基本信息，并存入csv中

python接口自动化测试十八：使用bs4框架爬取图片

使用request+bs4爬取所有股票信息

Python爬虫入门——利用bs4库对HTML页面信息进行遍历读取

python bs4 + requests4 简单爬虫

爬虫，基于request，bs4 的简单实例整合