Python如何简单爬取腾讯新闻网前五页文字内容?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python如何简单爬取腾讯新闻网前五页文字内容?相关的知识,希望对你有一定的参考价值。
刚入门 求详细过程
可以使用python里面的一个爬虫库,beautifulsoup,这个库可以很方便的爬取数据。爬虫首先就得知道网页的链接,然后获取网页的源代码,通过正则表达式或者其他方法来获取所需要的内容,具体还是要对着网页源代码进行操作,查看需要哪些地方的数据,然后通过beautifulsoup来爬取特定html标签的内容。网上有很多相关的内容,可以看看。 参考技术A 把url找出来,分析页码规律。构建url,然后用urllib包请求,再从请求里用xpath或者正则,bs,清晰。 参考技术B 这个在百度上应该可以收到。爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计)
前言
文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者:一棵程序树
PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun
我们以财经分栏为例,这里我们观察网页源码可以看到这些新闻的排布都是放在一个无序列表中,每一条新闻都是一个li,那么我们只要获取了所有的li(即li对应的ul)就能进一步解析。所以我们通过beautfulsoup来解析源码。那么获取所有li就很简单了,一行代码
二、首页要爬取的内容(上图绿色方框中的内容)
1、详情页的链接地址(一行代码)
2、该条新闻所属的标签(一行代码)
那么步骤如下:
2.1 先定义我们获取网页源码的函数
接下来我们就要获取一下所有的li,其实用beutlfulsouo一行代码就可以搞定
获取之后要做一步判断,find_all返回的是一个列表元素,因为页面上的ul(无序列表)有多个我们不知道新闻的列表对应的是哪一个,所以要自己看一下。这里我们要的新闻的列表是uls的第二个元素,即uls[1].
2.2解析首页中的新闻详情页的链接,标签
三、解析详情页
详情页就更好说了。把标题和正文部分解析保存即可
四、数据更新
因为爬取的新闻都是实时的热点新闻,每次爬取的内容都不同,所以加上一个此步骤。将每次爬取的与之前数据不重复的内容保存下来。
五、词频统计
这里我在网上下了一份停用词表,就是代码中的stop_words.txt.这个里面的内容网上随便搜一搜就有了。
六、主函数即效果实现
如果要爬取多个分类的内容,那么把子类的链接加入待爬取的链接列表中就好了。完整代码如下:
2020年最新Python教程:
如果你处于想学Python或者正在学习Python,Python的教程不少了吧,但是是最新的吗?
说不定你学了可能是两年前人家就学过的内容,在这小编分享一波2020最新的Python教程。
以上这些教程小编已经为大家打包准备好了,希望对正在学习的你有所帮助!
获取方式,私信小编 “ 资料 ”,即可免费获取哦!
以上是关于Python如何简单爬取腾讯新闻网前五页文字内容?的主要内容,如果未能解决你的问题,请参考以下文章
word里设置前几页和后几页不一样的页码 前五页用i ii iii iv 后面的就用1 2 3怎么设置啊 ??? 求解。。
使用Python爬取腾讯房产的新闻,用的Python库:requests retimeBeautifulSoup ????