Scala实现简易爬虫

Posted 2021-04-25 Nathon的学习笔记

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Scala实现简易爬虫相关的知识，希望对你有一定的参考价值。

现在数据的来源多种多样，从网络上爬取数据也是一种来源，许多场景下都是将这些非结构化数据爬取后再进行分析提取价值。这里尝试使用scala实现爬虫，先简单的爬取一个网页然后存放到本地磁盘上，当然也可以将这些网页结果保存在HDFS上，后面对接spark做分析。比如，这里先爬取一个体育网页，爬取后可以在本地查看对应的html文件。当然，我们也可以爬取自己需要的图片信息，保存下来，例如，该网页中有些我们喜欢的图片，那么我们可以将这些图片信息也可以爬取下来保存在本地磁盘上。这里，我们爬取HTML文件后，可以对这个文本通过正则表达式做个筛选，获取所有的href信息，这些信息对后面的数据分析或者挖掘通常是有价值的，比如可以分析用户应为，用户浏览了哪些网页。

以上是关于Scala实现简易爬虫的主要内容，如果未能解决你的问题，请参考以下文章

重学Node.js 第4篇实现一个简易爬虫&启动定时任务

Python实现简易Web爬虫详解