爬数据,专利的名字及摘要

Posted shushanxiaoyao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬数据,专利的名字及摘要相关的知识,希望对你有一定的参考价值。

# -*- coding:UTF-8 -*-
#########################################################################
# File Name: getsoopt.py
# Author: Ev
# mail: [email protected]
# Created Time: Mon 24 Dec 2018 10:35:12 AM CST
#########################################################################
#!/usr/bin/python
import sys
import requests
import re
from bs4 import BeautifulSoup 
def get_html(url):    
    headers = {
            User-Agent:Mozilla/5.0(Macintosh; Intel Mac OS X 10_11_4)        AppleWebKit/537.36(KHTML, like Gecko) Chrome/52 .0.2743. 116 Safari/537.36     }     #模拟浏览器访问  
    response = requests.get(url,headers = headers)       #请求访问网站 
    #with open(‘./1.html‘,‘w+‘) as f:
    #    f.write(response.text.encode(‘utf-8‘))
    html = response.text       #获取网页源码  
    return html                #返回网页源码

index = 27
soup = BeautifulSoup(get_html("http://www.soopat.com/....PatentIndex=" + str(index*10)),"lxml")
#soup = BeautifulSoup(open("./1.html"),"lxml")
reload(sys)
sys.setdefaultencoding(utf-8)
if "请输入验证码" in soup.title.string:
    print soup.title.string
    sys.exit()
print "get result ok!
"
#p = soup.body.attr
title = []
p = soup.find_all(class_="PatentTypeBlock")
for m in p:
    titleTemp = m.find("a").get_text()
    #print type(titleTemp)
    title.append(titleTemp)

content = []
p = soup.find_all(class_="PatentContentBlock")
for m in p:
    titleTemp = m.get_text()
    #print type(titleTemp)
    content.append(titleTemp)
#    break;
with open("get.txt","a+") as f:
    for i in range(len(content)):
        f.write(str(index*10+i) + ":")
        f.write(title[i])
        f.write("
")
        f.write(content[i])
        f.write("

")

网页是专利关键字搜索的结果

我是在ubuntu上使用python+BeautifulSoup+requests,环境的搭建直接百度

index是页数,0代表第一页,以此类推

这个脚本的目的是抓取专利的名字及简单摘要,以方便参考和规避^_^

脚本缺点就是,只能一页一页的运行,运行几次之后得输验证码,目前我不知道怎么办

以上是关于爬数据,专利的名字及摘要的主要内容,如果未能解决你的问题,请参考以下文章

戴森要搞能爬楼梯的吸尘器,两项专利设计现已提交

ChatGPT 辅助专利写作

联盟专利一种基于图像识别的抓取与放置压缩机的方法/基于样条插值与数据并行的数据处理方法

Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段

Python爬虫实战,Scrapy实战,爬取并简单分析知网中国专利数据

一种基于Oracle 数据库的数据表备份方法及装置获发明专利授权