亚马逊云平台采集转单机采集实现
Posted TopCoderのZeze
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了亚马逊云平台采集转单机采集实现相关的知识,希望对你有一定的参考价值。
实验室的一个项目采集亚马逊的商品数据,包括单体和变体采集。最开始的一个demo是单机版的java采集软件,后面根据导师的要求,实现了云端分布式采集——实验室提供采集设备资源,多机分布式多线程采集,用户只需在前台配置所需采集的URL即可,不需要挂机采集,从而给用户提供云端的采集服务。
项目组在实现的其中遇到了很多的技术难点,包括分布式架构的搭建,采集逻辑流程的设计以及亚马逊验证码的识别,代码的优化,经过了反复的研究,经过了几个月的测试,现已经基本实现主体功能,采集效率,客户也很满意。曾经在一天中,最大的采集数量达到将近两千万。这也是我们没有预料到的。
前面的工作主要给用户提供的是云端的采集服务。现在又提出一个需求,能否编写一套单机版的亚马逊采集,直接提供给用户采集使用,并且需要受到我们服务器的权限限制。初步的方案是使用JavaFX构建一个Java桌面应用,里面的采集核心流程跟之前的分布式采集完全一样。
还有另外一种思路是按照爬盟众包采集新浪微博的形式,我们给用户分配采集任务,裸机接受采集任务,众包的形式采集数据。但是这个方案跟我们目前的需要不符合,可以不考虑。
以上是关于亚马逊云平台采集转单机采集实现的主要内容,如果未能解决你的问题,请参考以下文章