豆瓣书籍数据采集
Posted wangchenghua
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了豆瓣书籍数据采集相关的知识,希望对你有一定的参考价值。
1、将从豆瓣网页爬虫采集到的数据,连接mongo数据库,将数据导入至mongo中,代码如下:
# 访问网址 # 使用requests 去访问 import pandas as pd import requests import pymongo import re u = ‘https://book.douban.com/tag/哲学‘ r = requests.get(url=u) # 解析网址 # 使用BeautifulSoup 解析网址 from bs4 import BeautifulSoup soup =BeautifulSoup(r.text,‘lxml‘) urlist =[] for i in range(7): urlist.append(‘https://book.douban.com/tag/哲学?start=‘ + str(20*i)+ ‘&type=T‘) n=0 for u in urlist: r = requests.get(url=u) soup =BeautifulSoup(r.text,‘lxml‘) soup.find(‘div‘,id="content").h1.text lis = soup.find(‘ul‘,class_=‘subject-list‘).find_all(‘li‘) for li in lis: dic = # 创建空字典,存储数据 dic[‘书名‘]=li.h2.text.replace(‘ ‘,‘‘).replace(‘\\n‘,‘‘) dic[‘其他信息‘]=li.find(‘div‘,class_="pub").text.replace(‘ ‘,‘‘).replace(‘\\n‘,‘‘) dic[‘评分‘]=li.find(‘span‘,class_="rating_nums").text dic[‘评价人数‘]=re.search(r‘(\\d*)人‘,li.find(‘span‘,class_="pl").text.replace(‘ ‘,‘‘).replace(‘\\n‘,‘‘)).group(1) datatable.insert_one(dic) # 将每次获取的数据入库 n +=1 print("成功采集%i条数据"%n) myclient = pymongo.MongoClient("mongodb://localhost:27017") db = myclient[‘豆瓣数据采集‘] datatable = db[‘test‘] # 创建了一个连接mongo数据库连接,并创建了一个豆瓣数据采集数据库,以及test表格
2、mongo的安装配置:https://www.cnblogs.com/zhoulifeng/p/9429597.html#4242074
3、ROBO 3T 安装:https://www.cnblogs.com/tugenhua0707/p/9250673.html
以上是关于豆瓣书籍数据采集的主要内容,如果未能解决你的问题,请参考以下文章
包邮免费推荐50本豆瓣评分9.0以上数据分析PythonBI等书籍!