python爬虫实战|京东商城评论

Posted 2021-11-07 向阳-Y.

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬虫实战|京东商城评论相关的知识，希望对你有一定的参考价值。

1.发现网址url规律

productid="100014438267"

def generate_urls(productid):
    """
    获取每一页连接
    productid：商品编号
    sortType：排序方式，取值为5,6（默认排序和时间排序）
    page：页码，由网页可知，从0开始
    """
    urls=[]
    template="https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={productid}&score=0&sortType={sortType}&page={page}&pageSize=10&isShadowSku=0&fold=1"
    for sortType in [5,6]:
        for page in range(0,100):
            url=template.format(sortType=sortType,page=page,productid=productid)
            urls.append(url)
    return urls
urls=generate_urls(productid)
urls

输出部分截图：

2.拿到一个页面数据

import requests
def get_json(url):
    headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4506.400"}
    resp=requests.get(url,headers=headers)
    raw_json=resp.text
    return raw_json
url="https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100014438267&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1"
raw_json=get_json(url)
raw_json

输出部分截图：

3.数据解析

import json

def extract_comments(raw_json):
    """
    从json数据（不规则，比较乱的json）清洗转换成comment数据列表（列表中每一个元素是一个字典）
    raw_json：json原始数据
    ['comments']：筛选只来自comments的内容
    [20:-2]：因为raw_json的开头和结尾包含了一些多余的数据
    """
    comments=json.loads(raw_json[20:-2])['comments'] 
    return comments
comments=extract_comments(raw_json)
comments

输出部分截图：

4.存储数据

import csv
path="F:/papapa/data/jingdong.csv"
csvf=open(path,'a+',encoding='utf-8',newline='')
fieldnames=['content','referenceName']

writer=csv.DictWriter(csvf,fieldnames=fieldnames)
writer.writeheader()

#逐个写入csv
for comment in comments:
    data={}
    data['content']=comment.get('content')
    data['referenceName']=comment.get('referenceName')
    writer.writerow(data)
    
#关闭csv
csvf.close()

解析：
fieldnames中的字段为下图：

5.大功告成

from pyquery import PyQuery
import requests
import csv
import json


def generate_urls(productid):
    """
    获取每一页连接
    productid：商品编号
    sortType：排序方式，取值为5,6（默认排序和时间排序）
    page：页码，由网页可知，从0开始
    """
    urls=[]
    template="https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={productid}&score=0&sortType={sortType}&page={page}&pageSize=10&isShadowSku=0&fold=1"
    for sortType in [5,6]:
        for page in range(0,10):
            url=template.format(sortType=sortType,page=page,productid=productid)
            urls.append(url)
    return urls


def get_json(url):
    headers={"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4506.400"}
    resp=requests.get(url,headers=headers)
    raw_json=resp.text
    return raw_json


def extract_comments(raw_json):
    """
    从json数据（不规则，比较乱的json）清洗转换成comment数据列表（列表中每一个元素是一个字典）
    raw_json：json原始数据
    ['comments']：筛选只来自comments的内容
    [20:-2]：因为raw_json的开头和结尾包含了一些多余的数据
    """
    comments=json.loads(raw_json[20:-2])['comments'] 
    return comments

def clean_comment(comment):
    data=dict()
    data['content']=comment.get('content')
    data['referenceName']=comment.get('referenceName')
    return data

def main(productid,file):
    print("开始采集")
    #新建csv

    csvf=open(file,'a+',encoding='utf-8',newline='')
    fieldnames=['content','referenceName']

    writer=csv.DictWriter(csvf,fieldnames=fieldnames)
    writer.writeheader()
    #生成productid产品所以评论urls
    urls=generate_urls(productid)
    for url in urls:
        print('正在采集：{url}'.format(url=url))
        #逐个访问拿到评论raw_json数据
        raw_json=get_json(url)
        #从row_json拿到评论字典
        comments=extract_comments(raw_json)
        for comment in comments:
            data=clean_comment(comment)
            writer.writerow(data)
        
    #关闭csv
    csvf.close()
    print('采集完成！')

main(productid="100014438267",file="F:/papapa/data/jingdong.csv")

以上是关于python爬虫实战|京东商城评论的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫编程思想（92）：项目实战：抓取京东图书评价

Python爬虫编程思想（70）：项目实战--抓取京东商城手机销售排行榜

python制作爬虫爬取京东商品评论教程

爬取了京东商城上的部分手机评论数据，仅供学习使用

一只初学者级别的京东商城商品爬虫（爬取索尼微单的参数信息）