Scala实现简易爬虫
Posted Nathon的学习笔记
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Scala实现简易爬虫相关的知识,希望对你有一定的参考价值。
现在数据的来源多种多样,从网络上爬取数据也是一种来源,许多场景下都是将这些非结构化数据爬取后再进行分析提取价值。这里尝试使用scala实现爬虫,先简单的爬取一个网页然后存放到本地磁盘上,当然也可以将这些网页结果保存在HDFS上,后面对接spark做分析。比如,这里先爬取一个体育网页,爬取后可以在本地查看对应的html文件。当然,我们也可以爬取自己需要的图片信息,保存下来,例如,该网页中有些我们喜欢的图片,那么我们可以将这些图片信息也可以爬取下来保存在本地磁盘上。这里,我们爬取HTML文件后,可以对这个文本通过正则表达式做个筛选,获取所有的href信息,这些信息对后面的数据分析或者挖掘通常是有价值的,比如可以分析用户应为,用户浏览了哪些网页。
以上是关于Scala实现简易爬虫的主要内容,如果未能解决你的问题,请参考以下文章