数据分析实战报告 | 今年国庆大家都去哪里旅游了?
Posted 指南者留学
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析实战报告 | 今年国庆大家都去哪里旅游了?相关的知识,希望对你有一定的参考价值。
指南者学院
数据分析训练营作品展示
摘要:本文以国庆旅游产品为研究对象,通过数据分析探究产品类型、供应商、评分、服务等相关因素对产品销量的影响,建立对数线性回归模型展示各因素与旅游产品销量之间的关联。结论表明产品因素和游客因素对线上旅行产品的销量都有显著的影响。
背景介绍
暑假一过,小伙伴心心念念盼望的十一黄金周终于到来,难得的七天长假,天气又这么好,哪怕知道各大景区国庆都会是人挤人挤人,也按耐不住躁动的心。
因此,每年只要临近10月,各大线上旅行平台的旅游产品也会迎来销售热潮。各式旅游线路,纯玩/豪华旅游套餐层出不穷。这个国庆,你有为线上旅行平台贡献销量吗?
想知道国庆最热门、最挤的旅游线路是哪条?
哪些人群是国庆出游的主力军?
面对纷繁复杂的旅游产品,我们该如何理性地选择?
哪些旅行目的地性价比高人又少,下个假期可以去打卡?
下面我们就通过收集线上旅行平台的相关数据,对国庆出行产品的销量及其影响因素进行探究,从而发现游客选择旅游线路背后的秘密,通过数据分析的方法为大家未来的出游提供参考。
数据说明
本次分析中所使用的数据全部爬取自某在线旅游网站,进行清洗后一共有5680条产品数据,涵盖各式各样的旅行产品,我们首先用数据可视化软件Tableau对原始数据规模进行统计。
数据说明
1
数据来源:本次分析中所使用的数据全部爬取自某在线旅游网站及中国旅游局统计资料,涵盖各式各样的旅行产品。
2
数据周期:2018年9月1日-2018年10月7日
3
4
数据规模:进行清洗后一共有5680条产品数据
相关字段:
旅游线路:文本变量
目的地:文本变量
出发地:文本变量
评分:连续变量【0,5】
评价人数:连续变量
出游方式:定性变量,包含跟团游,半自助游,自由 行等分类
销量:连续变量,单位:人次
出游天数:连续变量,单位:天
价格:连续变量,单位:元
其他信息:包括酒店、签证、产品钻级、服务保障等信息
描述统计
不得不说,年年“吐槽”却一年比一年火爆的国庆旅游市场在今年也创下了傲人的战绩。从文化和旅游部发布的数据来看,10月1日-4日全国接待国内游客5.02亿人次,同比增长8.80%;实现国内旅游收入4169亿元,同比增长8.12%。也就是说,国庆前四天,平均每天有超过1亿的游客出游,而他们每天的消费达到了1000亿。
我们通过该网站销售的旅游产品数量来窥探一下,黄金周期间最受大众喜爱的旅游地点。
旅游产品目的地销量情况:从销量分布图来看,对于颜色较深的区域,我们可以分为两类:第一类是东部沿海经济较发达但自然景观较少的区域,如江苏、山东、上海等地,该区域5A级景区较少但游客数量依然领先。究其根本,我们发现该区域人口密度大,大部分人都会选择周边游或者省内游,属于省内游客>外来游客的模式。
第二类是以贵州、四川等地为首的,自然景观及旅游资源较多的区域,这些区域以其网红属性,带来了大量外地游客的涌入,属于外来游客>本地游客的模式。
旅游产品目的地分类情况:中国境内游占绝对比例,约为61%。由于假期时间较短,大部分游客还是选择境内出游,但随着人民生活水平的提高,也不乏有很多游客选择出境游,主要分布在美洲、东南亚及欧洲等自然景观和人文资源较丰富的地区。
01
旅游产品销量
我们发现,在选择产品的过程中,很少有游客去选择两万以上的旅行产品,可能是因为游客对旅行产品的需求差异较大,导致旅行产品的选择是较为分散的。因此我们需要去研究哪些因素左右着旅客选择旅行商品。
产品的基本属性,目的地和价格显然都会影响到产品的成交量,且差异显著——近者如北京周边游,均价不足千元,其低价位产品的销量几乎是美洲游各类产品销量的两倍之多,而后者均价高达3万余。
02
国庆出游用户画像
我们对国庆出游人群的性别和年龄进行统计,发现国庆出游人群中,男女比例基本持平,相对于移动互联网人群性别比例来讲女性出游意愿更高;在出游人群年龄分布上, 26-35岁是国庆出游主力。
我们继续研究不同人群出行方式的差别,发现自驾游出游人群多已婚,且上海出游人群更加偏好航空出游。
我们对三种出行方式进行深入研究,使用app用户统计数据,窥探用户喜好。发现在自驾出游、铁路出游、航空出游三类人群中,自驾出游人群 相对偏好地图导航、游戏类应用,而航空出游人群更加偏好旅游、出行类应用。
03
冷门线路推荐
我们将携程旅行的线路信息进行汇总,找到销量较低,但评分很高的冷门线路推荐给大家。从数据的角度分析出有哪些人少又值得一去的景点。
从这份推荐中我们发现大部分人少又景美的景点都集中在祖国的中西部地区,看来要想在国庆黄金周省去看人的烦恼,还是需要付出时间与金钱的代价。
如果大家不想长途跋涉,那么我们对携程周边游频道数据采取同样的处理方式,得到短途旅游中那些较“冷门”的线路。
我们发现这张榜单中涵盖了北京、上海和广州三地的周边游信息,值得注意的是,这些“冷门”线路对应的出行方式均为自驾游,说明对于周边游来说,体验较好的旅行方式为自驾出行。
04
评论分析
除了旅游行程安排本身之外,作为在线旅游平台的一大优势——评论与游记攻略也在潜移默化的影响着人们的选择,不同旅游产品的评价也是游客选择的重要参考。我们展示了部分高销量旅行产品评价的词云图。
从图中可以看出,游客对这些高销量旅行产品总体来说是满意的,并且“住”和“行”的情况是游客对旅行产品关注的要点,因此这也是旅行产品发行方应着重提升游客体验的方面;游客也可以根据这些方面去重新权衡自己的选择。
建模分析
在对各类影响因素进行简单的观察之后,不难发现,众多的因素都会对产品成交量有所影响。那么接下来,对于商家来说,如何设计一款能成为爆款的旅游产品呢?
由于因变量Y(成交量)存在严重的偏态,因此对其进行取对数处理以减轻极端值的影响,分类型变量则通过设置基准组来生成多个0-1变量加入模型。最终通过AIC准则进行逐步回归筛选变量后的最终结果如下:
在控制其他因素不变时,可以得到以下结论:
对产品类型来说,半自助游产品较跟团游产品销量平均提升1.057%,自由行产品较跟团游产品销量平均提升3.816%。
对产品等级来说,有钻级和无钻级相比销量有所降低,且钻级越高,销量降低越多。这说明,大部分群众选择的旅游产品均属于平价旅游线路,并不一定追求奢华的体验。
对酒店情况来说,提供固定酒店比不提供的销量要降低0.69%,这说明大部分游客在计划多日游时,会选择多个地方,并非倾向于一地的多日游。
对游客因素来说,旅行产品评分每提升1%,旅行产品的销量提升0.614%,说明在线旅游网站的评分对大家选择旅游产品有着指导性的意见。
想要入门数据分析
自己动手完成项目?
指南者14天Python入门训练营正在报名中
限时免费
戳下方图片报名哦~
以上是关于数据分析实战报告 | 今年国庆大家都去哪里旅游了?的主要内容,如果未能解决你的问题,请参考以下文章