我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么
Posted GiveYourAll
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么相关的知识,希望对你有一定的参考价值。
前言
闲来周末练习下爬虫,就拿腾讯云社区来开刀, 这次我通过利用Python爬虫加上一个"不完美"的分词系统构建了,腾讯云技术社区所有文章的词云,来看看总体大概都写了什么。:)
正文
编程思路
对单文章页进行内容提取
将所有文章进行内容提取,并将结果存入MongoDB数据库中
利用分词系统和wordcloud进行词云的构建
获取文章列表页,所有的文章的以下信息:
index 随机数索引
title 文章名
content 文章内容
这里我就直接把最后生成的结果放出来了,由于分词系统不是很好,导致结果不是很理想,这里利用了正则表达式,将内容中所有非中文的字符去掉了。
由于个人计算机配置不是很好,我将结果分为了20份,每份均为随机选取的100篇文章组成

















这就是所有文章生成的词云,分词和筛选不是很好,导致数词、人称名词多。
总结
可以看出, 腾讯云技术社区上的文章,大部分都是和数据有关的
以上是关于我用爬虫爬取了“腾讯云技术社区“所有的文章,看看我得到了什么的主要内容,如果未能解决你的问题,请参考以下文章
我用Python爬取了女神视界,爬虫之路永无止境「内附源码」
我用Python爬取了B站3948评论,围观最近超火的“杀疯了!这就是国家队的美貌吗?”评论区