爬虫存储器

Posted zcfx

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫存储器相关的知识,希望对你有一定的参考价值。

 

爬虫数据存储

 

1、 html正文抽取

 

1.1、存储为json

  首先使用Requests访问http://seputu.com/,获取HTML文档内容,并打印内容,代码如下

 

 

 

 

 

 

 

 

 

1.2、爬虫异常发送邮件

开启网易邮件的第三方设置

技术分享图片

获取邮箱授权码

技术分享图片

 


构造MIMEText对象时需要3个参数:邮件正文,MIME的subtype,传入‘plain‘表示纯文本,最终的MIME就是‘text/plain‘,设置编码格式,utf-8编码保证多语言兼容性。
接着设置邮件的发件人、收件人和邮件主题等消息,并通过STMP发送出去。代码如下

 

技术分享图片
#构造MIMEText对象时需要3个参数:邮件正文,MIME的subtype,传入‘plain‘表示纯文本,最终的MIME就是‘text/plain‘,设置编码格式,utf-8编码保证多语言兼容性。
#接着设置邮件的发件人、收件人和邮件主题等消息,并通过STMP发送出去。代码如下
from email.header import Header
from email.mime.text import MIMEText
from email.utils import parseaddr,formataddr
import smtplib

def _format_adrr(s):
    print(s)
    name,addr=parseaddr(s)
    print(name,addr)
    return formataddr((Header(name,utf-8).encode(),addr))

from_addr=[email protected] #发件人地址
password=951127chenyang      #邮箱授权码
to_addr=[email protected]
smtp_server=smtp.163.com  #163网易邮箱服务器的地址
#设置邮件信息
msg=MIMEText(Python爬虫运行异常,异常信息为遇到HTTP 403,plain,utf-8) #发送的文本
msg[From]=_format_adrr(一号爬虫<%s>%from_addr)    #爬虫名
msg[To]=_format_adrr(管理员<%s>%to_addr)
msg[Subject]=Header(一号爬虫运行状态,utf-8).encode()
# 发送邮件
server=smtplib.SMTP(smtp_server,25)    #使用的邮件服务器地址和端口
server.login(from_addr,password)    #发件人的邮件和密码
server.sendmail(from_addr,[to_addr],msg.as_string())    #发送邮件
server.quit()     #关闭连接端口
发送邮件代码

 

以上是关于爬虫存储器的主要内容,如果未能解决你的问题,请参考以下文章

如何将代码片段存储在 mongodb 中?

爬虫代码实现三:打通爬虫项目的下载解析存储流程

如何将 r ggplot 图存储为 html 代码片段

sql 这些代码片段将演示如何逐步使用PolyBase。你应该有一个blob存储和存储秘密方便

爬虫代码实现四:采用Hbase存储爬虫数据

爬虫存储器