简单静态网页爬取数据存储

Posted 2021-06-10 xingweikun

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了简单静态网页爬取数据存储相关的知识，希望对你有一定的参考价值。

文章目录

将数据存储为JSON文件
- 存储数据
- 读取数据
将数据存储到MySQL数据库
- 存储数据
- 读取数据

将数据存储为JSON文件

存储数据

# 将获取的文本使用dump方法写入JSON文件

# 2020中国大学100强

import requests
from lxml import etree
import json


url = 'http://www.gaosan.com/gaokao/196075.html'
data = requests.get(url).content
s = etree.HTML(data)


name = s.xpath(
    '//*[@id="data196075"]/table[1]/tbody/tr/td[2]/text()')  # 大学名称


with open('ouput.json', 'w') as fp:

    json.dump(name, fp)

读取数据

f=open('ouput.json')
data=json.load(f)
print(data)

在这里插入图片描述

将数据存储到mysql数据库

存储数据

import json
from lxml import etree
import requests
import pymysql

db = pymysql.connect(host="localhost", user="root",
                     password="root", database="daxuepaiming")
cursor = db.cursor()


url = 'http://www.gaosan.com/gaokao/196075.html'
data = requests.get(url).content
s = etree.HTML(data)


names = s.xpath(
    '//*[@id="data196075"]/table[1]/tbody/tr/td[2]/text()')  # 大学名称

for n in names:
    n = str(n)
    cursor.execute("insert into dxpm(name)values('%s');" % (n))
db.commit()
db.close()

读取数据

import pymysql

db = pymysql.connect(host="localhost", user="root",
                     password="root", database="daxuepaiming")
cursor = db.cursor()
data=cursor.execute('select * from dxpm')
data=cursor.fetchall()
for d in data:
    print(d)
db.close()

因查询数据太多，截取了部分数据展示
在这里插入图片描述

以上是关于简单静态网页爬取数据存储的主要内容，如果未能解决你的问题，请参考以下文章