链家新房爬虫

Posted Dragon、

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了链家新房爬虫相关的知识,希望对你有一定的参考价值。

# 链家新房爬虫

**今日目标**

爬取最新地区以及对应的房价
```python
import requests
import re
import csv

class LianjiaSpider(object):
    def __init__(self):
        self.url=https://cq.lianjia.com/ershoufang/pg{}/
        self.headers={User-Agent: Mozilla/5.0}

    #获取网址
    def get_page(self,url):
        res=requests.get(url,headers=self.headers)
        html=res.content.decode()
        #直接调用解析函数
        self.parse_page(html)

    #解析数据
    def parse_page(self,html):

        pattern=re.compile(<div class="houseInfo"><span.*?data-el="region">(.*?)</a>.*?<div class="totalPrice"><span>(.*?)</span>,re.S)
        r_list=pattern.findall(html)
        self.write_page(r_list)

    #保存
    def write_page(self,r_list):
        film_list=[]
        with open(lianjia.csv,a) as f:
            writer = csv.writer(f)
            for r in r_list:
            # 把处理过的数据定义成元组
                t=(r[0].strip(),r[1]+)
                film_list.append(t)
                writer.writerows(film_list)

    def main(self):
        for page in range(1,11):
            url=self.url.format(page)
            self.get_page(url)
            print(正在打印{}页.format(page))


if __name__ == __main__:
     spider=LianjiaSpider()
     spider.main()
```

 

以上是关于链家新房爬虫的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫:爬取链家深圳全部二手房的详细信息

爬虫练习三:爬取链家二手房信息

爬虫之链家网

通过爬虫抓取链家二手房数据

静态网页爬虫-链家

链家二手房爬虫