爬虫 爬取天猫商品的封面信息
Posted changwenjun-666
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫 爬取天猫商品的封面信息相关的知识,希望对你有一定的参考价值。
# 爬取搜索字段的封面信息 ‘‘‘ q : 搜索的类型 可以识别中文 天猫控制登录字段: sort: 排序 s:起始第几个商品 问题1: 把s删除以后,虽说可以跳过登陆,但是只能访问第一页了,何解? 解决: 多次点击页面后发现,淘宝测试不完全,在点击跳转页面后,将其的url后的参数只保留 q totalPage jumpto 三个字段后,就可以通过修改jumpto字段的值 来跳转到其他的页面 问题2: 解决登陆问题后,发现无法提前知道totalpage的总页数 解决:只要页面有显示,那我们就能拿到对应的数据,因此可以再search里输入totalPage字段, 发现该字段在input输入框内,拿到对应的属性,通过css的find查找,获得其值 ‘‘‘ from requests_html import HTMLSession session = HTMLSession() keyword = input(‘输入要爬取的商品:‘) params = ‘totalPage‘:12, ‘jumpto‘:2, ‘q‘:keyword url = ‘https://list.tmall.com/search_product.htm?‘ # 获取总页数: def get_totalPage(url,params): r = session.request(method=‘get‘,url=url,params=params) totalPage = int(r.html.find(‘[name="totalPage"]‘,first=True).attrs.get(‘value‘)) params[‘totalPage‘] = totalPage # 改变jumpto字段的值,实现多次访问 def get_params(params,totalPage): for i in range(1,totalPage+1): params[‘jumpto‘] += 1 yield params # 获取男装的信息 def get_info(url,params): r = session.request(method=‘get‘,params=params,url=url) product_list = r.html.find(‘.product‘) for product_element in product_list: try: product_img_url = product_element.find(‘.productImg-wrap a img‘,first=True).attrs.get(‘src‘) product_title= product_element.find(‘.productTitle a‘,first=True).attrs.get(‘title‘) product_price = product_element.find(‘.productPrice em‘,first=True).attrs.get(‘title‘) product_shop_url = product_element.find(‘.productShop a‘,first=True).attrs.get(‘href‘) product_volume = product_element.find(‘.productStatus em‘,first=True).text print(product_img_url) print(product_title) print( product_price ) print(product_shop_url) print(product_volume) except: print(‘部分商品详情存在问题!‘) # 部分商品缺失字段,需要异常捕获 get_info(url,params) for param in get_params(params,params[‘totalPage‘]): get_info(url,param)
以上是关于爬虫 爬取天猫商品的封面信息的主要内容,如果未能解决你的问题,请参考以下文章