Scala爬虫刷博客阅读量
Posted 阿海与蜗牛
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Scala爬虫刷博客阅读量相关的知识,希望对你有一定的参考价值。
一、写在前面
最近尝试在简书上写一些技术博客。每天看着可怜的阅读量很是着急。刚好最近接触爬虫,有需求就有办法。因此想到能否用爬虫刷阅读量呢?答案是可行的。
友情提示:
酒香不怕巷子深,要着力提高内功,刷出的阅读量骗不了别人也骗不了自己,提升自身技术才是关键。
二、实现思路
知识点
爬虫主要的手段是通过HTTP请求,获取并解析html网页,获取指定数据
HTML 网页是一种格式数据,解析可通过JSOUP(java 包)解析
获取网页可通过 HTTP 协议的 Request 请求
HTML网页可分为动态和静态。静态网页可直接解析,动态网页的解析一种方法是通过模拟浏览器生成HTML,另一种是逆向工程分析页面加载逻辑
模拟浏览器的过程实际是构造一个自动的JS解析引擎
实现流程
环境要求
安装selenium
安装PhantomJS(速度要比Chrome快)
三、代码实现
Python 解析动态页面
Scala 解析静态页面,并调用Python脚本
以上是关于Scala爬虫刷博客阅读量的主要内容,如果未能解决你的问题,请参考以下文章
Python 爬虫实例(10)—— 四行代码实现刷 博客园 阅读数量