爬虫1.3-数据存储

Posted bitterzz

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫1.3-数据存储相关的知识,希望对你有一定的参考价值。

目录

爬虫-数据存储

1. JSON文件

1.1 JSON数据格式

json是一种轻量级数据交换格式,采用完全独立于编程语言的文本格式来存储和表示数据,简洁清晰,适合前端和后端数据交换

JSON数据格式
1 对象(字典) 使用花括号{}
2 数组(数组) 使用方括号[]
3 整形、浮点型、布尔型、null型
4 字符串类型(字符串必须要用双引号,不能用单引号)
多个数据之间用逗号分开
json本质上就是一个字符串 python中只有基本数据类型才能转换成JSON格式,int float str list dict tuple

1.2 写入

写入方法一

persons = [{xxx}, {xxxxx}] 
json_str = json.dumps(persons) # 此时列表之间被转换成json标准格式(字符串类型),然后一个文件写入就行了
fp.write(json_str)

写入方法二

with open(‘xx.json‘, ‘w‘, enconding=‘utf-8‘) as fp:
  json.dump(persons, fp, ensure_asciii=False)   
# 涉及到中文字符时这里传入三个参数,第一个就是包含大量字典的列表,第二个是文件指针,第三个是将json函数默认转换ascii码关闭    另外文件写入时也要使用utf-8格式(enconding=‘utf-8‘)

1.3 读取json

json_str = ‘[{"username": "laowang", "age": 18, "country": "china"}, {"username": "laoli", "age": 11, "country": "china"}]‘
persons = json.loads(json_str)  这里persons通过loads函数变成了一个对象,然后下方对其进行操作即可
for i in persons:
    print(i)    
with open(‘person.json‘, ‘r‘, encoding=‘utf-8‘) as fp:
     persons = json.load(fp)     这时persons通过load函数变成了一个list类的对象,然后可以进行操作了
     for i in persons:
         print(i)

dumpdumps loadloads 有s 则与字符串有关 没有s则与文件有关

2. CSV文件

2.1 csv数据格式

CSV文件不是一个特定的文件格式,泛指具有以下特征的任何文件:
1 纯文本,使用某个字符集,如utf-8, unicode, ascii, gbk等
2 由记录组成,典型的是每行一条记录
3 每条记录被分隔符分割为字段 典型的分隔符有逗号 分号 制表符
4 每条记录都有同样的文本字段 如 姓名 年龄 身高 体重 每条记录都要有这四个字段

2.2 写入

CSV文件写入方法一:
headers = [‘username‘, ‘age‘, ‘height‘]       
data = [(‘张三‘, 18, 160),(‘lisi‘, 20, 213)]
with open(‘classroom.csv‘, ‘w‘, encoding=‘utf-8‘, newline=‘‘) as fp:   
    #这里的newlien参数是为了避免写入后又多余的换行
    writer = csv.writer(fp)
    writer.writerow(headers)
CSV文件写入方法二: 字典直接写入
with open(‘classroom.csv‘, ‘w‘, encoding=‘utf-8‘, newline=‘‘) as fp:
    writer = csv.DictWriter(fp, headers)    # 这里直接使用DictWriter函数
    writer.writerow(data)    # writerow每次只写入一条

with open(‘classroom.csv‘, ‘w‘, encoding=‘utf-8‘, newline=‘‘) as fp:
    writer = csv.DictWriter(fp, headers)  # 这里直接使用DictWriter函数
    writer.writeheader()   # 这里必须先调用写入头部函数,否则没有头部
    writer.writerows(data)  # 多条数据,直接使用writerows全部写入即可

3. mysql数据库数据存入

import pymysql
db = pymysql.connect(
    host=‘47.107.110.xx‘,
    user=‘xxx‘,
    password=‘xxx‘,
    database=‘testdb‘,  # 数据库名
    port=3306
)

这里要理解,一个数据库服务器可以有多个数据库,所以要选择某个数据库进行操作

新建表格的第一个字段可以设置为自动增长,可以理解为id
sql = """
insert into user(id,username,age,password) values(null,%s,%s,%s)
"""  
# 这里使用%s是因为数据库在处理时都先按照字符串的
# null是id  它自动增长可以不用填写
username = ‘laowang‘
age = 88
password = ‘123456‘   # 这样就可以自己灵活施展了
cursor = db.cursor()   # cursor是创建一个新的游标,方便执行语句
cursor.execute(sql, (username, age, password))  # 这里要传入一个元组
db.commit()  # 必须使用commit提交后, 数据库的数据才会改变
db.close()

查询数据:
fetchone() # 返回一条数据
fetchall() # 接收全部的返回结果
fetchmany(size) # 获取定条数的数据
使用查询语句后,要使用上述三条语句才能获得结果,
result = cursor.fetchone() # 获得一条数据(元组形式)  
result = cursor.fetchall() # 获得所有返回的数据((xxx,xxxx,xxx), (yyy,yyyy,yyy)) 
fetmany(size) # 得到的数据形式与fetchall类似

删除数据:
使用sql = """delete from table where id=1;"""  
然后cursor.execute(sql)   
db.commit()
# 这里删除时只能删除一整条记录,插入,删除,更新等数据修改操作都需要使用.commit()函数

更新数据
sql = """update table set username=‘xxx‘ where id=1;""" 这里sql语句需要指明表 字段 标识
如果不加id=1   就会把整个表的所有记录中的usernam字段都更新为xxx










以上是关于爬虫1.3-数据存储的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫之Scrapy框架系列——XXTop250电影所有信息同时存储到MySql数据库

scrapy按顺序启动多个爬虫代码片段(python3)

scrapy主动退出爬虫的代码片段(python3)

《python3 网络爬虫开发实践》笔记

爬虫代码实现四:采用Hbase存储爬虫数据

爬虫之scrapy框架