python爬虫 ----文章爬虫(合理处理字符串中的 ........)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫 ----文章爬虫(合理处理字符串中的 ........)相关的知识,希望对你有一定的参考价值。

import urllib.request
import re
import time

num=input("输入日期(20150101000):")



def openpage(url):
    html=urllib.request.urlopen(url)
    
    page=html.read().decode(gb2312)
    
    return page

def getpassage(page):
    passage = re.findall(r<p class="MsoNormal" align="left">([\\s\\S]*)</FONT>,str(page))
    
    passage1=re.sub("</?\\w+[^>]*>", "", str(passage))
    
    passage2=passage1.replace(\\\\r, \\r).replace(\\\\n,  \\n).replace(\\\\t,\\t).replace(],‘‘).replace([,‘‘).replace(&nbsp;,   )

    print(passage2)

    with open(load,a,encoding=utf-8) as f:
        f.write("-----------------------------"+"日期"+str(date)+"---------------------------------\\n"+passage2+"----------------------------------------------------\\n")





for i in range(1,32):
    date=int(num)+int(i)
    print(date)
    load="C:/Users/home/Desktop/新建文本文档.txt"
    url=("http://www.hbuas.edu.cn/news/xyxw/news_"+str(date)+".htm")
    
  
try: page=openpage(url) getpassage(page) print(""+str(i)+"号有文章,----已下载") except: print(""+str(i)+"号无文章。") time.sleep(2)

 

写了一个爬学校新闻网的爬虫,

主要涉及   re正则   urllib.request   文件的写入  

在爬取文章时通常会返回很多影响美感的代码

 如下:

技术分享

 

 优化:

两次正则    

passage = re.findall(r‘<p align="left">([\\s\\S]*)</FONT>‘,str(page))       #第一次匹配字段
    
passage1=re.sub("</?\\w+[^>]*>", "", str(passage))              # 第二次去掉html标签

替换

passage2=passage1.replace(‘\\\\r‘, ‘\\r‘).replace(‘\\\\n‘, ‘ \\n‘).replace(‘\\\\t‘,‘\\t‘).replace(‘]‘,‘‘).replace(‘[‘,‘‘).replace(‘&nbsp;‘,‘   ‘)

效果如下:

技术分享

 

over!

以上是关于python爬虫 ----文章爬虫(合理处理字符串中的 ........)的主要内容,如果未能解决你的问题,请参考以下文章

Python代写,Python作业代写,代写Python,代做Python

Python开发

Python,python,python

Python学习之认识python

如何切换python版本

Python学习--Python 环境搭建