使用python3 requests和bs4进行爬虫(二)爬取文章
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用python3 requests和bs4进行爬虫(二)爬取文章相关的知识,希望对你有一定的参考价值。
参考技术A 为了做到更优雅,这次抛弃了urllib库的引用,使用requests和beautifulsoup搭配的方式进行首先构建一个请求并且响应它
然后呢到上找一篇文章试试手,看一下网页源码找到文章的div
以及找到文章内容,仔细看看内容还挺不错哈哈
可以发现所有的内容都在p标签里面,那么接下来就简单多了只需要
f5运行一下
最后使用codecs库来进行文件操作将文章保存到本地
没错使用上requests和bs4之后爬取文章的工作是那么的轻松呢
效果图
以上是关于使用python3 requests和bs4进行爬虫(二)爬取文章的主要内容,如果未能解决你的问题,请参考以下文章
爬虫简单之二---使用进程爬取起点中文网的六万多也页小说的名字,作者,等一些基本信息,并存入csv中