数据爬取

Posted xiangyu721

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据爬取相关的知识,希望对你有一定的参考价值。

首次接触爬取数据,跟着网上的教程安装了pychram,学习了基本的爬取操作。

技术图片
from os import path
import requests
from bs4 import BeautifulSoup
import json
import pymysql
import numpy as np
import time
#请求地址
url = ‘https://ncov.dxy.cn/ncovh5/view/pneumonia?from=timeline&isappinstalled=0‘
#为了避免反爬,伪装成浏览器:
#创建头部信息
headers = {‘user-agent‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/74.0.3729.131 Safari/537.36‘}
response =  requests.get(url,headers = headers)  #发送网络请求
#print(response.content.decode(‘utf-8‘))#以字节流形式打印网页源码
content = response.content.decode(‘utf-8‘)
#print(content)
soup = BeautifulSoup(content, ‘html.parser‘)#指定Beautiful的解析器为“html.parser”
‘‘‘*find()
返回的是第一个匹配的标签结果
*find_all()
返回的是所有匹配结果的列表‘‘‘
#世界确诊
listB = soup.find_all(name=‘script‘,attrs={"id":"getListByCountryTypeService2true"})
account = str(listB)#转化成字符串
#print(account)
messages = account[95:-21]#截取从52到后边倒数21个
print(messages)
messages_json = json.loads(messages)#json.loads 用于解码 JSON 数据。该函数返回 Python 字段的数据类型。
print(messages_json)
valuesList = []
cityList = []
con=len(messages_json)#Python len() 方法返回对象(字符、列表、元组等)长度或项目个数
k=0
for i in range(len(messages_json)):#从0到len
    k=k+1#time.strftime(‘%Y-%m-%d %H:%M:%S‘,time.localtime(time.time()))格式化当前时间
    value = (k,time.strftime(‘%Y-%m-%d %H:%M:%S‘,time.localtime(time.time())),messages_json[i].get(‘provinceName‘),None,messages_json[i].get(‘confirmedCount‘),messages_json[i].get(‘suspectedCount‘),messages_json[i].get(‘curedCount‘),messages_json[i].get(‘deadCount‘),messages_json[i].get(‘locationId‘))
    valuesList.append(value)#进行添加到list中
#数据库的写入
#打开数据库连接
db = pymysql.connect("localhost", "root", "123", "payiqing", charset=‘utf8‘)
#使用此方法获取操作游标
cursor = db.cursor()

array = np.asarray(valuesList[0])
‘‘‘DELETE 语句每次删除一行,并在事务日志中为所删除的每行记录一项。
TRUNCATE TABLE 通过释放存储表数据所用的数据页来删除数据,并且只在事务日志中记录页的释放。 ‘‘‘
sql_clean_province = "TRUNCATE TABLE world_map"
sql = "INSERT INTO world_map values (%s,%s,%s,%s,%s,%s,%s,%s,%s) "
‘‘‘>>>tuple([1,2,3,4])
(1, 2, 3, 4)
>>> tuple({1:2,3:4})    #针对字典 会返回字典的key组成的tuple
(1, 3)
>>> tuple((1,2,3,4))    #元组会返回元组自身
(1, 2, 3, 4)‘‘‘
value_tuple = tuple(valuesList)

try:
    cursor.execute(sql_clean_province)
    db.commit()
except:
    ‘‘‘    connection.rollback()
该方法回滚自上一次调用 commit() 以来对数据库所做的更改‘‘‘
    print(‘执行失败,进入回调1‘)
    db.rollback()

try:
    ‘‘‘cursor.executemany(sql, seq_of_parameters)
该例程对 seq_of_parameters 中的所有参数或映射执行一个 SQL 命令。‘‘‘
    cursor.executemany(sql, value_tuple)
    ‘‘‘connection.commit()
该方法提交当前的事务。如果您未调用该方法,
那么自您上一次调用 commit() 以来所做的任何动作
对其他数据库连接来说是不可见的‘‘‘
    db.commit()
except:
    print(‘执行失败,进入回调3‘)
    db.rollback()
    ‘‘‘    connection.close()
该方法关闭数据库连接。请注意,这不会自动调用 commit()。
如果您之前未调用 commit() 方法,就直接关闭数据库连接,
您所做的所有更改将全部丢失!‘‘‘
db.close()

以上是关于数据爬取的主要内容,如果未能解决你的问题,请参考以下文章

python小白学习记录 多线程爬取ts片段

如何用30行代码爬取Google Play 100万个App的数据

如何用30行代码爬取Google Play 100万个App的数据

Python爬虫腾讯视频m3u8格式分析爬取(附源码,高清无水印)

「无代码」高效的爬取网页数据神器

python用通用代码爬取,没有反应,该如何处理?