Python爬虫应用实战-如何对爬取的数据进行数据存储？

Posted 2021-11-03 文宇肃然

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python爬虫应用实战-如何对爬取的数据进行数据存储？相关的知识，希望对你有一定的参考价值。

文件存储

文件储存的形式多种多样，比如说保存成TXT纯文本形式，也可以保存为JSON格式、CSV格式等等。

TXT文本存储

将数据保存到TXT文件的操作是非常简单的，而且TXT文本几乎兼容任何平台，但是也是存在缺点的，那就是不利于检索。所以如果对检索数据的要求不高，追求第一的话，可以采用TXT文本存储。

基本示例

爬取小说网，链接如下：

https://www.soxscc.com/BianShenJueSeShaoNv/1001322.html

首先可以使用requests将网页源码获取下来，然后使用pyquery解析库解析，提取其中的小说内容。

具体代码如下所示：

import requests
from pyquery import PyQuery as pq


url = \'https://w、w.soxscc.com/BianShenJueSeShaoNv/1001322.html\'
headers = {
    \'user-agent\': \'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36\'
}
html = requests.get(url, headers=headers).text
doc = pq(html)
text = doc(\'#con1001322\').text()
file = open(\'都市仙尊.txt\', \'w\', encoding=\'utf-8\')
file.write(text)
print(\'

以上是关于Python爬虫应用实战-如何对爬取的数据进行数据存储？的主要内容，如果未能解决你的问题，请参考以下文章