爬虫 爬取天猫商品的封面信息

Posted changwenjun-666

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫 爬取天猫商品的封面信息相关的知识,希望对你有一定的参考价值。

# 爬取搜索字段的封面信息

‘‘‘
q : 搜索的类型 可以识别中文

天猫控制登录字段:
sort: 排序
s:起始第几个商品   

问题1: 把s删除以后,虽说可以跳过登陆,但是只能访问第一页了,何解?
解决:  多次点击页面后发现,淘宝测试不完全,在点击跳转页面后,将其的url后的参数只保留
     q   totalPage   jumpto  三个字段后,就可以通过修改jumpto字段的值 来跳转到其他的页面
     
问题2: 解决登陆问题后,发现无法提前知道totalpage的总页数
解决:只要页面有显示,那我们就能拿到对应的数据,因此可以再search里输入totalPage字段,
发现该字段在input输入框内,拿到对应的属性,通过css的find查找,获得其值
‘‘‘

from requests_html import HTMLSession

session = HTMLSession()

keyword = input(输入要爬取的商品:)


params = 
    totalPage:12,
    jumpto:2,
    q:keyword


url = https://list.tmall.com/search_product.htm?

# 获取总页数:
def get_totalPage(url,params):
    r = session.request(method=get,url=url,params=params)
    totalPage = int(r.html.find([name="totalPage"],first=True).attrs.get(value))
    params[totalPage] = totalPage

# 改变jumpto字段的值,实现多次访问
def get_params(params,totalPage):
    for i in range(1,totalPage+1):
        params[jumpto] += 1
        yield params


# 获取男装的信息
def get_info(url,params):
    r = session.request(method=get,params=params,url=url)
    product_list = r.html.find(.product)
    for product_element in product_list:
        try:
            product_img_url = product_element.find(.productImg-wrap a img,first=True).attrs.get(src)
            product_title= product_element.find(.productTitle a,first=True).attrs.get(title)
            product_price = product_element.find(.productPrice em,first=True).attrs.get(title)
            product_shop_url = product_element.find(.productShop a,first=True).attrs.get(href)
            product_volume = product_element.find(.productStatus em,first=True).text

            print(product_img_url)
            print(product_title)
            print( product_price )
            print(product_shop_url)
            print(product_volume)
        except:
            print(部分商品详情存在问题!)  # 部分商品缺失字段,需要异常捕获

get_info(url,params)
for param in get_params(params,params[totalPage]):
    get_info(url,param)

 

以上是关于爬虫 爬取天猫商品的封面信息的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫——淘宝商品信息定向爬虫

scrapy爬虫天猫笔记本电脑销量前60的商品

python爬虫获取天猫与京东的商品价格

[爬虫]采用Go语言爬取天猫页面

如何用爬虫抓取京东商品评价

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程