简单静态网页爬取数据存储
Posted xingweikun
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了简单静态网页爬取数据存储相关的知识,希望对你有一定的参考价值。
将数据存储为JSON文件
存储数据
# 将获取的文本使用dump方法写入JSON文件
# 2020中国大学100强
import requests
from lxml import etree
import json
url = 'http://www.gaosan.com/gaokao/196075.html'
data = requests.get(url).content
s = etree.HTML(data)
name = s.xpath(
'//*[@id="data196075"]/table[1]/tbody/tr/td[2]/text()') # 大学名称
with open('ouput.json', 'w') as fp:
json.dump(name, fp)
读取数据
f=open('ouput.json')
data=json.load(f)
print(data)
将数据存储到mysql数据库
存储数据
import json
from lxml import etree
import requests
import pymysql
db = pymysql.connect(host="localhost", user="root",
password="root", database="daxuepaiming")
cursor = db.cursor()
url = 'http://www.gaosan.com/gaokao/196075.html'
data = requests.get(url).content
s = etree.HTML(data)
names = s.xpath(
'//*[@id="data196075"]/table[1]/tbody/tr/td[2]/text()') # 大学名称
for n in names:
n = str(n)
cursor.execute("insert into dxpm(name)values('%s');" % (n))
db.commit()
db.close()
读取数据
import pymysql
db = pymysql.connect(host="localhost", user="root",
password="root", database="daxuepaiming")
cursor = db.cursor()
data=cursor.execute('select * from dxpm')
data=cursor.fetchall()
for d in data:
print(d)
db.close()
因查询数据太多,截取了部分数据展示
以上是关于简单静态网页爬取数据存储的主要内容,如果未能解决你的问题,请参考以下文章