taobao 爬虫基本思路分享

Posted alex-13

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了taobao 爬虫基本思路分享相关的知识,希望对你有一定的参考价值。

taobao 爬虫基本思路分享
原创置顶 yellowhatgood 最后发布于2016-08-17 17:39:58 阅读数 7236 收藏
展开
   关于taobao 爬取 下面做一个分享,大家一起研究

   1. taobao, tmall 店铺数据
                
     在官网上我们可以通过 search 接口 (https://shopsearch.taobao.com/search?app=shopsearch&q=iphone )获取前 1020 页数据,界面展示是 100页数据 每页数据 20条,即2000条,现在通过
     
 

   2. item 接口(又称之为 商品接口 json) 
     该接口可以快速的获取店铺商品信息,获取店铺是第 1 步,第2步通过该 接口获取所有店铺商品信息, 以下展示 2 个接口
     (1. old : http://s.m.taobao.com/search?m=api4h5&nick=%E7%92%90%E7%92%90%E5%98%89%E5%98%89&n=40&page=1 ) // 通过店铺 昵称
      (2. new : http://api.s.m.taobao.com/search.json?m=shopitemsearch&sellerId=263817957&n=40&page=1  ) // 通过卖家 sellerId 
     
    以上两个接口可以很轻松的返回店铺所有商品数据,这样对收集店铺数据就显的十分重要,为进一步获取 sku 数据打下关键的基本,他是一个 一对多接口 (一个接口多对数据)

     

   3. sku 数据 (json 数据)
     sku 数据即 detail 数据,在这里可以获取商品的所有信息 价格,库存,销量 ,运费等信息,我们先看一个 pc 端接口
     1. pc ( https://mdskip.taobao.com/core/initItemDetail.htm?tmallBuySupport=true&itemId=itemId ) // itemId 即上面获取的 店铺 items 所有数据 
        这个接口直接访问不行,需要添加一定的 http 头消息 如 Referer, UpgradeInsecureRequests , CacheControl 等信息,启用 tls 请求即可 返回 json 数据
              
     2. mobile 1 ( https://hws.m.taobao.com/cache/wdetail/5.0/?id=39783398037 )    
      这是一个非常高效的接口 cache 接口,未有任何校验直接取数 如下  
          
       这个接口直接请求即可获取详细的 json 数据, 这里包括 商品价格,sku 信息,销量, 运费, 支付方式,店铺,促销信息等        
 
     3. mobile 2 (tmall: https://detail.m.tmall.com/item.htm?id=39783398037   ) 
       该接口很正常的返回页面数据,在页面数据中,包函完整的 sku 全部信息,这是直接可以解析与处理的,访问一个手机页面未有什么校验直接即可以获取 建议添加用户信息检验与加密算法
              
   
   4. app client 
   在早期 taobao app 中,曾经有人破解出收费 app key  
    appKey = "12278902"; 
    secret = "744e7d7e7028b817bd9f8f3c6f28a8d3";  

   通过这个 appkey 我们可以大方的使用 open.api 了如获取以下信息
   

 5.关于动态IP 

   现在通过与运营商合作可以方便的建立N多 ADSL接入服务,在机房动态的获取B段的IP池,对各电商平台进行数据爬取
 
  总结: 通过以上接口我们就可以很方便的快速的获取 taobao ,tmall 平台开放的一些数据,在IP足量的情况下,做到即时更新,类似 双11 数据直播平台一样,展现数据销量分部等业务数据模型

  keyword -> shop -> items -> sku  以这样的爬取路径 可以获取大量的实时数据, 在密算法与请求交互认证中 注意 https, tls,自动cookies 等,自动话的爬取处理只能在一定程度上模拟用户操作. 在 ip 被屏临界值 蔽时 做 ip 切换。
————————————————
版权声明:本文为CSDN博主「yellowhatgood」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/yellowhatgood/article/details/52233036

以上是关于taobao 爬虫基本思路分享的主要内容,如果未能解决你的问题,请参考以下文章

一款轻量级爬虫框架的设计思路

scrapy爬虫基本实现和爬虫思想

爬虫入门讲解:基础篇

简单爬虫思路

爬去网络数据的一般思路

爬虫入门第3课:实现代理池思路