如何将该Python爬取的数据存入MySQL中,数据库表带id
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何将该Python爬取的数据存入MySQL中,数据库表带id相关的知识,希望对你有一定的参考价值。
import requestsfrom bs4 import BeautifulSoupimport pymysqlurl = 'http://www.ndrc.gov.cn/zcfb/zcfbl/'res = requests.get(url)# 使用UTF-8编码res.encoding = 'UTF-8'# 使用剖析器为html.parsersoup = BeautifulSoup(res.text, 'html.parser')news=soup.find_all('li', "class": "li")for t in news: data = "标题":t.find('a').text, "链接":t.find('a')['href'], "时间":t.find('font').get_text() print(data)
参考技术A python爬取到的json数据怎么存入到MySQL数据库中json的数据json.loads进来以后会变成一个json的对象,你需要自己把python对象中的字段值取出来,拼成sql语句
Python爬虫应用实战-如何对爬取的数据进行数据存储?
文件存储
文件储存的形式多种多样,比如说保存成TXT纯文本形式,也可以保存为JSON格式、CSV格式等等。
TXT文本存储
将数据保存到TXT文件的操作是非常简单的,而且TXT文本几乎兼容任何平台,但是也是存在缺点的,那就是不利于检索。所以如果对检索数据的要求不高,追求第一的话,可以采用TXT文本存储。
基本示例
爬取小说网,链接如下:
https://www.soxscc.com/BianShenJueSeShaoNv/1001322.html
首先可以使用requests将网页源码获取下来,然后使用pyquery解析库解析,提取其中的小说内容。
具体代码如下所示:
import requests
from pyquery import PyQuery as pq
url = \'https://w、w.soxscc.com/BianShenJueSeShaoNv/1001322.html\'
headers =
\'user-agent\': \'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36\'
html = requests.get(url, headers=headers).text
doc = pq(html)
text = doc(\'#con1001322\').text()
file = open(\'都市仙尊.txt\', \'w\', encoding=\'utf-8\')
file.write(text)
print(\'
以上是关于如何将该Python爬取的数据存入MySQL中,数据库表带id的主要内容,如果未能解决你的问题,请参考以下文章
python爬取百度百科(根据爬取的热词自动匹配相应解释)且将数据存入数据库中