基于文本挖掘的上海旅游业发展调查

Posted ECNU经管书院团委

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于文本挖掘的上海旅游业发展调查相关的知识,希望对你有一定的参考价值。

项目介绍

      近年来随着居民生活水平和消费水平的不断提高, 我国旅游消费也在急剧增长, 据国家统计局调查,就2016年我国入境游客已达13844万次, 其中上海的入境人数就达854万人次, 全年接待国内旅游者29620.60万人次,增长7.4%,其中,外省市来沪旅游者14679.73万人次,增长5.4%。全年入境旅游外汇收入65.30亿美元,增长9.6%;国内旅游收入3443.93亿元,增长14.6%. 在上海迪士尼开放之后, 上海旅游业发展得更快, 因此我们希望通过迪士尼分析上海旅游业的发展现状以及趋势。

项目进度

基于文本挖掘的上海旅游业发展调查

实地调研(完成)

项目组成员通过对周围有上海迪士尼乐园游览的人群进行问卷调查,以及迪士尼周边随机问卷调查收集线下数据,通过网络爬虫手段对大众点评网站中的游客评论进行抓取形成线上数据,为了数据分析时的便利,我们尽量保持线下数据和线上数据的格式一致以做到能直接进行数据的追加。我们依据大众点评网站的评分体系设计了线下发放的问卷,问卷详情请查看附录部分。

基于文本挖掘的上海旅游业发展调查

数据获取(完成)

问卷主要包含内容有对上海迪士尼的餐饮、环境、服务、项目、是否划算等方面的评价,者这部分数据通过适当的转换(将等级转换为具体数字,填补缺失值等)成为我们回归分析的主要依据。

最终我们收集到线下数据322份。

线上的数据主要来源于大众点评网站,在前期我们计算从大众点评和蚂蚁窝两个网站获取数据,但后期因为蚂蚁窝关于迪士尼的评论较为冗长,结构化程度较低的缘故我们只爬取了大众点评网的上海迪士尼相关数据,线上数据主要包括八个字段,名称为:人均消费、内容、划算、总评、时间、评论者、项目、餐饮。

最终项目采集到的线上数据为8837条,我们将线上数据与线下数据进行格式结构的统一,然后追加至总数据中,共得数据9259条。数据实例如下图:

基于文本挖掘的上海旅游业发展调查
基于文本挖掘的上海旅游业发展调查

数据预处理(完成)

得到格式统一的9259条原始数据后,我们针对文本挖掘和回归分析两个任务分别进行了数据预处理:

针对回归分析的数据主要有人均、划算、总评、项目、餐饮几个字段,其中划算、总评、项目、餐饮是解释变量,人均字段为被解释变量。除了被解释变量需要转换为连续变量外,其他变量均转化为离散型的变量。

针对文本挖掘的数据主要有内容字段,内容字段是游客对于上海迪士尼的描述、总结或者评价,而且大部分评论长度较长,因此我们运用了Python的分词工具JieBa对评论的内容进行了分词。

另外,涉及对文本感情的分析,我们还需要对评论数据的极性作出判断。因为数据量比较大,因此我们没有采用人工标注词性的方式,而是通过SnowNLP工具进行标注。SnowNLP的标注不如人工精确但对于大批量的数据有着人工标注不能比拟的速度优势。极性中越接近1则表示评价为正面的程度越高,越接近0则表示评价负面程度越高。

分词与词性标注结果展示如下:

基于文本挖掘的上海旅游业发展调查

 为方便后续的正面负面评论的对比研究,我们将机器标注为正面评论的数据与负面评论的数据分别储存。

基于文本挖掘的上海旅游业发展调查

词云(完成)

对于正负面评论,我们在分词后进行了词频统计,然后将一些没有意义又不在分词词典中的高频词人工剔除,最终得到正面与负面的词云如下: 

基于文本挖掘的上海旅游业发展调查


Figure 1正面词云

 

基于文本挖掘的上海旅游业发展调查


Figure 2负面词云

 

待中期以后完成的项目:

词共现及共现网络

LDA主题模型

回归分析

 

附录

 

关于上海迪士尼满意度评价的问卷

 

感谢您能抽出几分钟时间来参加本次答题,现在我们就马上开始吧!

 

1、请问您是否游览过上海迪士尼乐园? (单选题 *必答)

 ○ 是

 ○ 否

 

2、您认为游览上海迪士尼是否划算? (单选题 *必答)

 ○ 非常好

 ○ 很好

 ○ 好

 ○ 一般

 ○ 差

 

3、您认为上海迪士尼的服务如何? (单选题 *必答)

 ○ 非常好

 ○ 很好

 ○ 好

 ○ 一般

 ○ 差

 

4、您认为上海迪士尼的产品如何? (单选题 *必答)

 ○ 非常好

 ○ 很好

 ○ 好

 ○ 一般

 ○ 差

 

5、您认为上海迪士尼的项目如何? (单选题 *必答)

 ○ 非常好

 ○ 很好

 ○ 好

 ○ 一般

 ○ 差

 

6、您认为上海迪士尼的餐饮如何? (单选题 *必答)

 ○ 非常好

 ○ 很好

 ○ 好

 ○ 一般

 ○ 差

 

7、您认为上海迪士尼的环境如何? (单选题 *必答)

 ○ 非常好

 ○ 很好

 ○ 好

 ○ 一般

 ○ 差

 

8、您认为上海迪士尼的环境如何? (单选题 *必答)

 ○ 非常好

 ○ 很好

 ○ 好

 ○ 一般

 ○ 差

 

9、请问您游览上海迪士尼乐园的人均消费为? (填空题 *必答)

________________________

 

10、请您给上海迪士尼打分 (打分题 请填1-5数字打分 *必答)

打分 _____

 

11、请您对您的上海迪士尼之旅进行简要的描述、总结或评价 (填空题 *必答)

________________________


文案 | 基于文本挖掘上海旅游业发展调查团队

排版 | 郭轶男


以上是关于基于文本挖掘的上海旅游业发展调查的主要内容,如果未能解决你的问题,请参考以下文章

证券行业文本挖掘技术应用现状与探讨案例

全国高校python网络爬虫与文本挖掘技术培训(上海)

IMF基于文本挖掘对各国税收措施进行研究

宁波站网络爬虫与文本挖掘

基于文本挖掘技术的理赔原因分类方法(上篇)

基于知识图谱的文本挖掘 - 超越文本挖掘