沪商财富爬虫源码

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了沪商财富爬虫源码相关的知识,希望对你有一定的参考价值。

使用javascript编写的爬虫源码,用于爬取沪商财富网上的商品信息。

代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了,

不需要安装编译环境。要爬取其他网站,可以更改源码即可。

 

代码执行具体步骤点这里

代码详细讲解点这里

更多源码下载点这里

 

var configs = {
    domains: ["www.hushangcaifu.com"],
    scanUrls: ["http://www.hushangcaifu.com/invest/index1.html"],
    contentUrlRegexes: ["http://www\\.hushangcaifu\\.com/invest/a\\d{4}\\.html"],
    helperUrlRegexes: ["http://www\\.hushangcaifu\\.com/invest/index\\d+\\.html"],
    fields: [
        {
            name: "title",
            selector: "//div[contains(@class,‘product-content-top-left-top‘)]/h3/text()",
            required: true 
        },
        {
            name: "user_name",
            selector: "//div[contains(@class,‘product-content-top-left-top‘)]/p/span/text()"
        },
        {
            name: "total_money",
            selector:"//div[contains(@class,‘product-content-top-left-middle‘)]/div[1]/h4/text()"
        },
        {
            name: "project_time",
            selector:"//div[contains(@class,‘product-content-top-left-middle‘)]/div[2]/h4/text()"
        },
        {
            name: "annual_return",
            selector:"//div[contains(@class,‘product-content-top-left-middle‘)]/div[3]/h4/text()"
        },
        {
            name: "return_method",
            selector:"//div[contains(@class,‘product-content-top-left-middle‘)]/div[4]/h4/text()"
        }
        
    ]
};

var crawler = new Crawler(configs);
crawler.start();

 

以上是关于沪商财富爬虫源码的主要内容,如果未能解决你的问题,请参考以下文章

东方财富爬虫url次数最大

东方财富网数据抓取 | 爬虫

scrapy按顺序启动多个爬虫代码片段(python3)

scrapy主动退出爬虫的代码片段(python3)

Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储

Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储