爬虫入门Python-文件的读写和JSON

Posted 一步一步学Python

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫入门Python-文件的读写和JSON相关的知识,希望对你有一定的参考价值。

‘’’对这个方法进行一些解释
open(file, mode=’r’, buffering=None, encoding=None, errors=None, newline=None, closefd=True)

mode参数:
r
以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。
rb
以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。
r+
打开一个文件用于读写。文件指针将会放在文件的开头。
rb+
以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。
w
打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
wb
以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
w+
打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
wb+
以二进制格式打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。
a
打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
ab
以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。
a+
打开一个文件用于读写。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建新文件用于读写。
ab+
以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写。

encoding参数用于控制对文件的解码或者编码
‘’’

接下来,对这个file对象来解释一下概念和方法,首先是读取的方法:

read()方法

会将所有内容一次性打印出来
read(size)方法,可以限定读取内容的大小,size是字符的数量吧,大约是这样
举个例子,假如当前路径下面有个workfile.txt,文件,里面的内容是这样的:
/Hello World!

1+2=?

明天天气如何?/

f=open('workfile.txt','r',encoding='utf-8')
print(f.read())
f.close()#一定要记得将文件流关闭
Hello World!

1+2=?

明天天气如何?

如果read没有传入任何参数,那么会将文件中所有的内容都会被打印出来。
比较适合文件很小的情况。那么如果文件很大,怎么办呢?
read(size)方法适合这种情况:

f=open('workfile.txt','r',encoding='utf-8')
print(f.read(10))
f.close()#一定要记得将文件流关闭
Hello Worl

你看,打印出了10个字符~~

readline()方法

该方法会读取file中的一行,如果没有读取到最后,还可以继续使用readline方法获取下一行。

f=open('workfile.txt','r',encoding='utf-8')
print(f.readline())#打印出第一行print(f.readline())#打印出第二行,由于我们第二行是空行,所以没有内容显示出来。print(f.readline())#好了,第三行出来了。#f.close()
Hello World!

可以看出,如果使用readline()方法,将不断的打印。

readlines()方法

从文件流中读取并且返回一个行的list。
此时,我们也学习一个比较方便的打开文件的方法,不用再惦记f.close()啦。
那就是with as语句,举个栗子~

with open('workfile.txt','r',encoding='utf-8') as file:    for line in file.readlines():
        print(line.strip())
Hello World!

1+2=?

明天天气如何?

Write()方法

f.write(string)将字符串格式的内容写到文件中,返回写入的字符数。
如果是其他格式的内容,使用str()方法转换之后再传入。
还有writelines()方法。

>>> f.write('This is a test\n')
>>>15
f=open('workfile.txt','a',encoding='utf-8')
f.write('\n')
f.write('这是写入的第一行~\n')
f.close()
Hello World!1+2=?

明天天气如何?
这是写入的第一行~

f.tell()方法
f.tell() 返回文件对象当前所处的位置, 它是从文件开头开始算起的字节数。

f.seek()方法
如果要改变文件当前的位置, 可以使用 f.seek(offset, from_what) 函数。
from_what 的值, 如果是 0 表示开头, 如果是 1 表示当前位置, 2 表示文件的结尾,例如:

seek(x,0) : 从起始位置即文件首行首字符开始移动 x 个字符
seek(x,1) : 表示从当前位置往后移动x个字符
seek(-x,2):表示从文件的结尾往前移动x个字符
from_what 值为默认为0,即文件开头。

JSON文件的读写

JSON是一种轻量级的数据交换格式。
Python中包含了json模块来对JSON进行编解码。
主要应用的两个函数为:
json.dumps(): 对数据进行编码。
json.loads(): 对数据进行解码。
在json的编解码过程中,python的原始类型会与json类型进行相互转换。

如果你要处理的是文件而不是字符串,你可以使用 json.dump() 和 json.load() 来编码和解码JSON数据。

Python和JSON类型转换对应:
JSON—————Python
object————dict
array————-list
string————-str
number(int)——int
number(real)—-float
true—————-True
false—————False
null—————-None
下面我们展示几个栗子:

import json
data={    'admin':'admin',    'url':'http://www.baidu.com',    'password':'somepassword'}

json_str=json.dumps(data)
print('Python原始数据',repr(data))
print('JSON格式',json_str)
Python原始数据 {'admin': 'admin', 'url': 'http://www.baidu.com', 'password': 'somepassword'}
JSON格式 {"admin": "admin", "url": "http://www.baidu.com", "password": "somepassword"}

输出结果很相似。
如果要想这个data写入文件的话,是这样的代码:

import json
data={    'admin':'admin',    'url':'http://www.baidu.com',    'password':'somepassword'}with open('data.json','w') as f:
    json.dump(data,f)#当前路径下会出现data.json文件,里面的内容和上面的类似。

我们在展示一下如何从文件中读取json:

import jsonwith open('data.json','r') as f:
    data=json.load(f)

print(data)
print("data['url']:",data['url'])#可以看出,读取的json文件可以看成一个字典操作。#输出结果如下:
{'url': 'http://www.baidu.com', 'admin': 'admin', 'password': 'somepassword'}
data['url']: http://www.baidu.com


以上是关于爬虫入门Python-文件的读写和JSON的主要内容,如果未能解决你的问题,请参考以下文章

如何使用python读写文件?

Python 爬虫从入门到进阶之路(十四)

爬虫入门Python链接Excel操作详解-openpyxl库

三个Python爬虫版本,带你轻松入门爬虫!

python爬虫入门教程(非常详细),超级简单的Python爬虫教程

python爬虫入门