我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么

Posted GiveYourAll

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么相关的知识,希望对你有一定的参考价值。

前言

闲来周末练习下爬虫,就拿腾讯云社区来开刀, 这次我通过利用Python爬虫加上一个"不完美"的分词系统构建了,腾讯云技术社区所有文章的词云,来看看总体大概都写了什么。:)

正文

编程思路

  1. 对单文章页进行内容提取

  2. 将所有文章进行内容提取,并将结果存入MongoDB数据库中

  3. 利用分词系统和wordcloud进行词云的构建

获取文章列表页,所有的文章的以下信息:

  • index 随机数索引

  • title 文章名

  • content 文章内容


这里我就直接把最后生成的结果放出来了,由于分词系统不是很好,导致结果不是很理想,这里利用了正则表达式,将内容中所有非中文的字符去掉了。

由于个人计算机配置不是很好,我将结果分为了20份,每份均为随机选取的100篇文章组成


我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么


这就是所有文章生成的词云,分词和筛选不是很好,导致数词、人称名词多。

总结

可以看出, 腾讯云技术社区上的文章,大部分都是和数据有关的


以上是关于我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么的主要内容,如果未能解决你的问题,请参考以下文章

别人用钱,而我用python爬虫爬取了一年的4K高清壁纸

我用Python爬取了女神视界,爬虫之路永无止境「内附源码」

爬虫实战:爬虫之 web 自动化终极杀手 ( 上)

我用Python爬取了B站3948评论,围观最近超火的“杀疯了!这就是国家队的美貌吗?”评论区

朋友很喜欢打篮球,我用Python爬取了1000张他喜欢的NBA球星图片

利用Scrapy爬取所有知乎用户详细信息并存至MongoDB