如何使用java写一个轻量的爬取动态内容的爬虫

Posted 2023-04-17

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何使用java写一个轻量的爬取动态内容的爬虫相关的知识，希望对你有一定的参考价值。

最近刚好在学这个，对于一些第三方工具类或者库，一定要看官方tutorial埃学会用chrome network 分析请求，或者fiddler抓包分析。普通的网页直接用httpclient封装的API就可以获取网页html了，然后 JSoup、正则提取内容。参考技术A 当然可以，知名的 Nutch 就是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

python多线程爬虫爬取顶点小说内容（BeautifulSoup+urllib）

参考技术A 之前写过python爬取起点中文网小说，多线程则是先把爬取的章节链接存到一个列表里，然后写一个函数get_text每次调用这个函数就传一个章节链接，那么就需要调用n次该函数来获取n章的内容，所以可以用for循环创建n个线程，线程的target就是get_text，参数就是章节的url。

随便点开的，辣眼睛哈哈哈

个人感觉用了多线程之后速度并没有很大的提升，速度大致是20个txt文件/分钟，是否有单个机器上继续提升爬取速度的方法？

下一步打算搞点能被封ip的爬取行为，然后学学分布式爬虫。加油~

以上是关于如何使用java写一个轻量的爬取动态内容的爬虫的主要内容，如果未能解决你的问题，请参考以下文章

基于java的网络爬虫框架(实现京东数据的爬取，并将插入数据库)

如何用JAVA爬取AJAX加载后的页面

爬虫实战：爬虫之 web 自动化终极杀手 ( 上）

如何处理python爬虫ip被封

如果爬取一个小说网站以后，如何做到更新内容的爬取并且存储

爬虫---爬取公众号内容

如何使用java写一个轻量的爬取动态内容 的爬虫

python多线程爬虫爬取顶点小说内容（BeautifulSoup+urllib）

如何使用java写一个轻量的爬取动态内容的爬虫