如何将该Python爬取的数据存入MySQL中,数据库表带id

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何将该Python爬取的数据存入MySQL中,数据库表带id相关的知识,希望对你有一定的参考价值。

import requestsfrom bs4 import BeautifulSoupimport pymysqlurl = 'http://www.ndrc.gov.cn/zcfb/zcfbl/'res = requests.get(url)# 使用UTF-8编码res.encoding = 'UTF-8'# 使用剖析器为html.parsersoup = BeautifulSoup(res.text, 'html.parser')news=soup.find_all('li', "class": "li")for t in news: data = "标题":t.find('a').text, "链接":t.find('a')['href'], "时间":t.find('font').get_text() print(data)

参考技术A python爬取到的json数据怎么存入到MySQL数据库中
json的数据json.loads进来以后会变成一个json的对象,你需要自己把python对象中的字段值取出来,拼成sql语句

Python爬虫应用实战-如何对爬取的数据进行数据存储?

文件存储

文件储存的形式多种多样,比如说保存成TXT纯文本形式,也可以保存为JSON格式、CSV格式等等。

TXT文本存储

将数据保存到TXT文件的操作是非常简单的,而且TXT文本几乎兼容任何平台,但是也是存在缺点的,那就是不利于检索。所以如果对检索数据的要求不高,追求第一的话,可以采用TXT文本存储。

基本示例

爬取小说网,链接如下:

https://www.soxscc.com/BianShenJueSeShaoNv/1001322.html

首先可以使用requests将网页源码获取下来,然后使用pyquery解析库解析,提取其中的小说内容。

具体代码如下所示:

import requests
from pyquery import PyQuery as pq


url = \'https://w、w.soxscc.com/BianShenJueSeShaoNv/1001322.html\'
headers = 
    \'user-agent\': \'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36\'

html = requests.get(url, headers=headers).text
doc = pq(html)
text = doc(\'#con1001322\').text()
file = open(\'都市仙尊.txt\', \'w\', encoding=\'utf-8\')
file.write(text)
print(\'

以上是关于如何将该Python爬取的数据存入MySQL中,数据库表带id的主要内容,如果未能解决你的问题,请参考以下文章

python爬取百度百科(根据爬取的热词自动匹配相应解释)且将数据存入数据库中

Python爬虫之运用scrapy框架将爬取的内容存入文件和数据库

Python 爬取51cto博客数据存入MySQL

一个咸鱼的Python爬虫之路:将爬取数据存入mysql

python爬取豆瓣250存入mongodb全纪录

python爬虫如何分析一个将要爬取的网站?