Python爬虫应用实战-如何对爬取的数据进行数据存储?

Posted 文宇肃然

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫应用实战-如何对爬取的数据进行数据存储?相关的知识,希望对你有一定的参考价值。

文件存储

文件储存的形式多种多样,比如说保存成TXT纯文本形式,也可以保存为JSON格式、CSV格式等等。

TXT文本存储

将数据保存到TXT文件的操作是非常简单的,而且TXT文本几乎兼容任何平台,但是也是存在缺点的,那就是不利于检索。所以如果对检索数据的要求不高,追求第一的话,可以采用TXT文本存储。

基本示例

爬取小说网,链接如下:

https://www.soxscc.com/BianShenJueSeShaoNv/1001322.html

首先可以使用requests将网页源码获取下来,然后使用pyquery解析库解析,提取其中的小说内容。

具体代码如下所示:

import requests
from pyquery import PyQuery as pq


url = \'https://w、w.soxscc.com/BianShenJueSeShaoNv/1001322.html\'
headers = {
    \'user-agent\': \'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36\'
}
html = requests.get(url, headers=headers).text
doc = pq(html)
text = doc(\'#con1001322\').text()
file = open(\'都市仙尊.txt\', \'w\', encoding=\'utf-8\')
file.write(text)
print(\'

以上是关于Python爬虫应用实战-如何对爬取的数据进行数据存储?的主要内容,如果未能解决你的问题,请参考以下文章

爬虫入门:爬取的数据存储到MySQL数据库

python爬虫课设-爬取3000条数据并做数据可视化

python爬虫课设-爬取3000条数据并做数据可视化

Python爬虫实战,argparse模块,Github用户粉丝数据爬虫

Python爬虫如何获取页面内所有URL链接?本文详解

Python爬虫如何获取页面内所有URL链接?本文详解