使用Python爬取腾讯房产的新闻,用的Python库:requests retimeBeautifulSoup ????

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用Python爬取腾讯房产的新闻,用的Python库:requests retimeBeautifulSoup ????相关的知识,希望对你有一定的参考价值。

import requests
import re
import time
from bs4 import BeautifulSoup

today = time.strftime(%Y-%m-%d,time.localtime(time.time()))

one_url = http://hz.house.qq.com    #用来构建新的URL的链接

url = http://hz.house.qq.com/zxlist/bdxw.htm      #需要爬取的网址
html = requests.get(url)
html.encoding = html.apparent_encoding
reg = re.compile(r<a target="_blank" class="tit f-l f16 blue" href="(.*?)">(.*?)</a><span class="tm f-r gray">(.*?)</span>)
html_lis = re.findall(reg,html.text)

for html_li in html_lis:
    new_url = one_url + html_li[0]
    new_time = html_li[2][0:10]             #分割获取到的新闻日期,对比今天的日期和获取到的新闻日期,相同的话就打印出来,不相同就跳过不打印
    if new_time == today:
        print(html_li[1],new_url)
        new_html = requests.get(new_url)            
        soup = BeautifulSoup(new_html.text,html.parser)
        contents = soup.find_all(p,style="TEXT-INDENT: 2em")
        for content in contents:
            if content.string != None:
                print(content.string)
            else:
                continue
        print(----------------------------下一篇新闻----------------------------)
    else:
        break
#可以建立函数来介绍代码的重复

 

以上是关于使用Python爬取腾讯房产的新闻,用的Python库:requests retimeBeautifulSoup ????的主要内容,如果未能解决你的问题,请参考以下文章

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计)

Python如何简单爬取腾讯新闻网前五页文字内容?

python_爬虫_腾讯新闻app 单页新闻数据分析爬取

Python爬取房产数据,哪里跌价买哪里,你可能不赚,但我永远不亏

Python爬虫可以爬取啥

使用python-aiohttp爬取今日头条