scrapy爬取booking酒店评论数据

Posted hls91

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了scrapy爬取booking酒店评论数据相关的知识,希望对你有一定的参考价值。

# scrapy爬取酒店评论数据

--  

代码 here:github地址:https://github.com/760730895/scrapy_Booking
--  
采用scrapy爬取酒店评论数据。

总共有28W条记录。

做某NLP任务,需要一些hotel reviews, 选择从`www.booking.com`搞一点数据来。
根据主页显示总共有20个城市from diferrent countries,每个城市下有若干个酒店,每个酒店下若干条评论。

#  〇、数据源介绍

数据源:`www.booking.com`  
具体:

### *所有的城市:*

![](assets/1.png)

### *某个城市的酒店列表:*

![](assets/2.3.png)

### *某个酒店的评论:*

![](assets/3.png)

<!-------->

#  一、爬取数据项:
设定一条记录有如下字段:  

* 目标酒店名target  
* 分数score  
* 总体评价overall_comment  
* 正评论positive_comment  
* 负评论negative_comment  
* 入住日期date  
* 城市名city_name

用CSV文件保存with seperator "\t".

![](assets/4.png)

#  二、目录介绍:

-hotel_review_booking:hotel_data数据文件  
&nbsp;&nbsp;-hotel_review_booking:scrapy理解的项目目录  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-hotel_review_booking:scrapy的真正项目目录  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;-entrypoint  
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;……

#  三、流程:四步:

* 新建项目 (Project):新建一个新的爬虫项目
* 明确目标(Items):明确你想要抓取的目标
* 制作爬虫(Spider):制作爬虫开始爬取网页
* 存储内容(Pipeline):设计管道存储爬取内容


#  四、url分析:

略……

#  五、代码提示:

1. 因为酒店列表不好直接显示页数,所以采取半人工手段标记页数……
    ![](assets/5.png)

2. 日期date: 使用正则匹配。

    `pattern = r‘(\d4)年(\d1,2)月(\d1,2)日‘`
    `pattern_compiled = re.compile(pattern)`

3. 其他也没啥的,就是scrapy的使用上,纯经验主义。

github地址:https://github.com/760730895/scrapy_Booking

以上是关于scrapy爬取booking酒店评论数据的主要内容,如果未能解决你的问题,请参考以下文章

爬取携程国内地区攻略评论

Scrapy爬取新浪微博用户信息用户微博及其微博评论转发

Python网络爬虫Scrapy+MongoDB +Redis实战爬取腾讯视频动态评论教学视频

scrapy实战爬取cl社区评论数超过设定值的链接

Python Scrapy的QQ音乐爬虫 音乐下载爬取歌曲信息歌词精彩评论

Python爬虫入门教程 33-100 电影评论数据抓取 scrapy