爬取购物网站某类商品多个页面并存储

Posted 风不想过

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬取购物网站某类商品多个页面并存储相关的知识,希望对你有一定的参考价值。

# -*- coding: utf-8 -*-

import time
import requests
import re
from bs4 import BeautifulSoup


# 获取页面
def gethtmlText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

# 获取前n页并存储
def getPage(n):
    # 存储页面的文件
    f = "Pages.html"
    fo = open(f,"w",encoding=‘utf-8‘)        # 默认是gbk编码,后面的网页内容是decode过的unicode编码,会导致解析不了

    for i in range(1,2*n+1,2):
        time.sleep(0.5)
        url="http://search.jd.com/search?keyword=%E7%83%AD%E6%B0%B4%E5%99%A8&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E7%83%AD%E6%B0%B4%E5%99%A8&ev=exbrand_%E6%B5%B7%E5%B0%94%EF%BC%88Haier%EF%BC%89%5E&stock=1&page="+str(i)
        r=getHTMLText(url)

        fo.write(r)                    # 向文件写入一个字符串或字节流
        fo.seek(2)                     # 指向文件结尾
    fo.close()

getPage(46)

fo = open("Pages.html","rt",encoding="utf-8")
r=fo.read()
fo.close()

suop=BeautifulSoup(r,"html.parser")
print(suop.find_all("a"))

  

以上是关于爬取购物网站某类商品多个页面并存储的主要内容,如果未能解决你的问题,请参考以下文章

如何爬取抖音商品数据

使用scrapy框架爬取某商城部分数据并存入MongoDB

使用scrapy框架爬取某商城部分数据并存入MongoDB

网站爬取-案例二:天猫爬取( 第一卷:首页数据抓取)

分布式爬虫系统设计实现与实战:爬取京东苏宁易购全网手机商品数据+MySQLHBase存储

如何用python获取京东的评论数据