怎么利用爬虫技术抓取淘宝搜索页面的产品信息

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了怎么利用爬虫技术抓取淘宝搜索页面的产品信息相关的知识,希望对你有一定的参考价值。

可以通过requests库re库进行淘宝商品爬虫爬取
import requests
import re
def gethtmlText(url):
try:
r= requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""

def parsePage(ilt,html):
try:
plt = re.findall(r'\"view_price\":\"[\d+\.]*\"',html)
tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
for i in range(len(plt)):
price = eval(plt[i].split(':')[1])
title = eval(tlt[i].split(':')[1])
ilt.append([price,title])
except:
print("F")

def printGoodsList(ilt):
tplt = ":4\t:8\t:16"
print(tplt.format("序号","价格","商品名称"))
count = 0
for g in ilt:
count = count +1
print(tplt.format(count,g[0],g[1]))

def main():
goods = '书包'
depth = 2
start_url = "https://s.taobao.com/search?q="+ goods
infoList = []
for i in range(depth):
try:
url = start_url +'&s='+str(44*i)
html = getHTMLText(url)
parsePage(infoList,html)
except:
continue
printGoodsList(infoList)
main()
这段代码在过去是可以爬取淘宝商品信息,但是因为淘宝的反扒技术升级,便不能让你大摇大摆地进出自如了。
此外也可以借助采集实现采集
参考技术A 写个脚本定时抓取 制定网页地址,通过正则表达式 匹配过滤想要的数据 整理成自己想要的格式(比如excel)。
php 语言的话,可以用 file_get_content、curl。
Linux 可以用 curl wget 等。

是使用淘宝API获取数据好,还是利用爬虫去抓取数据好

利用爬虫:网页上显示的都可以,需要自己编程或借助工具。
直接获取api:比较简单,当然这需要具备一定的技术基础,一般的话都只是提供给你数据,处理是需要技术手段去实现。
参考技术A api稳定,直接用采集器采集比较方便 参考技术B 这个各有优势,api稳定,爬虫不受约束 参考技术C 都不.好可以用多功能系统需要帮你安装个 参考技术D 生意参谋的最好

以上是关于怎么利用爬虫技术抓取淘宝搜索页面的产品信息的主要内容,如果未能解决你的问题,请参考以下文章

是使用淘宝API获取数据好,还是利用爬虫去抓取数据好

python怎么爬取数据

如何用爬虫抓取京东商品评价

Python爬虫——淘宝商品信息定向爬虫

Python网络爬虫与信息提取(中国大学mooc)

利用“爬虫”抓视频 法院审结全国首例计算机抓取数据案