简单静态网页爬取数据存储

Posted xingweikun

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了简单静态网页爬取数据存储相关的知识,希望对你有一定的参考价值。

将数据存储为JSON文件

存储数据

# 将获取的文本使用dump方法写入JSON文件

# 2020中国大学100强

import requests
from lxml import etree
import json


url = 'http://www.gaosan.com/gaokao/196075.html'
data = requests.get(url).content
s = etree.HTML(data)


name = s.xpath(
    '//*[@id="data196075"]/table[1]/tbody/tr/td[2]/text()')  # 大学名称


with open('ouput.json', 'w') as fp:

    json.dump(name, fp)

读取数据

f=open('ouput.json')
data=json.load(f)
print(data)

在这里插入图片描述

将数据存储到mysql数据库

存储数据

import json
from lxml import etree
import requests
import pymysql

db = pymysql.connect(host="localhost", user="root",
                     password="root", database="daxuepaiming")
cursor = db.cursor()


url = 'http://www.gaosan.com/gaokao/196075.html'
data = requests.get(url).content
s = etree.HTML(data)


names = s.xpath(
    '//*[@id="data196075"]/table[1]/tbody/tr/td[2]/text()')  # 大学名称

for n in names:
    n = str(n)
    cursor.execute("insert into dxpm(name)values('%s');" % (n))
db.commit()
db.close()

读取数据

import pymysql

db = pymysql.connect(host="localhost", user="root",
                     password="root", database="daxuepaiming")
cursor = db.cursor()
data=cursor.execute('select * from dxpm')
data=cursor.fetchall()
for d in data:
    print(d)
db.close()

因查询数据太多,截取了部分数据展示
在这里插入图片描述

以上是关于简单静态网页爬取数据存储的主要内容,如果未能解决你的问题,请参考以下文章

Python开发简单爬虫之静态网页抓取篇:爬取“豆瓣电影 Top 250”电影数据

python网络爬虫爬取静态数据详解

python简单爬取静态网页

爬虫实战:爬虫之 web 自动化终极杀手 ( 上)

分享一个爬虫框架

python 爬取网页简单数据---以及详细解释用法