基于文本挖掘的游客对古镇旅游态度的分析
Posted 大数据期刊
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于文本挖掘的游客对古镇旅游态度的分析相关的知识,希望对你有一定的参考价值。
基于文本挖掘的游客对古镇旅游态度的分析
范珈瑜
山东财经大学,山东 济南 250014
摘要:围绕游客的反馈,分析古镇旅游项目存在的问题及游客的态度。选取了5个各具特色的古镇——甲居藏寨、西江千户苗寨、周庄古镇、黄姚古镇、西塘古镇作为参考。利用大量的评论进行文本挖掘、统计词频,分析热门话题。再运用情感分析得到评分,进而分析游客的好感度及可能影响评价的因素。最后,结合因子分析建立综合模糊评分模型,以计算古镇旅游的最终得分。研究结果可作为参考,以此优化改善古镇旅游体验,保护历史文明遗址。
关键词:文本挖掘;古镇旅游;情感分析;因子分析;模糊综合评价模型;方差分析
doi:10.11959/j.issn.2096-0271.2017064
论文引用格式:范珈瑜. 基于文本挖掘的游客对古镇旅游态度的分析[J]. 大数据, 2017, 3(6): 93-101.
FAN J Y. Analysis of tourists' attitude for ancient towns based on text mining[J]. Big Data Research, 2017, 3(6): 93-101.1 引言
据中国旅游研究院发布的《中国旅游经济蓝皮书》和统计数据显示,中国旅游业飞速发展,2015年入境旅游3年来首次增长。旅游产业成为带动经济发展的重要驱动力。开发特色景区成为了许多经济滞后的偏远地区刺激经济发展的重要策略。其中,开发具有本土文化特色的古镇旅游很受欢迎。但是效益驱动的景区开发愈演愈烈,市场各种形式的旅游消费方式层出不穷。由于缺乏对旅游市场的管理经验和过度追逐经济效益等因素,导致许多景区开发过度,甚至市场持续混乱。例如,部分古镇景区充斥着各种物非所值的消费、不适当的破坏风貌的现代化建设等。而这些可见的问题长期积压,却一直未得以解决。在不同的媒体报道里不难找到民众对旅游体验做出的负面评价——对门票制度、旅游环境等表示不符合预期,但是各景点的旅游人次每年屡攀新高。游客对古镇旅游的态度到底怎样,游客的评判标准和关注热点是什么,哪些因素可能会影响古镇旅游体验,可以运用大数据对游客的态度进行探索,从而为解决这些问题提供参考。
本文结合当前流行的文本挖掘方法,选取了对几个古镇旅游的网络评论进行文本处理。先提取高频词,分析游客的关注热点,对几个旅游景点横向比较的同时,再内部纵向比较游客对哪个旅游属性比较敏感。再利用情感分析SnowNLP组件进行情感分析。运用分析结果探索游客对敏感属性的态度是否影响最后对该景点的总体好感度。最后构建模糊综合评价模型,从而可以得到在大数据的支持下游客对古镇旅游的总体态度。
2 数据描述和方法
2.1 获取数据及数据预处理
使用数据采集器从网站采集所需的评论词条组成数据。本文一共采集了6 647条分别关于甲居藏寨、西江千户苗寨、周庄古镇、黄姚古镇、西塘古镇的评论。对采集的数据用R软件预处理。现在已有很多程序包可以调用,如jieba 和Rwordseg等,本文运用的是Rwordseg。Rwordseg是基于Java的程序包,使用它进行分词时要调用Java分词工 具Ansj(Ansj是基于中国科学院计算技术研究所ICTCALS (Institu te of Computing Technology,Chinese Lexical Analysis System)中文分词算法的开源工具)。
首先将采集到的评论进行分词处理,即依据语义将一句话切分成一个个的词,例如,“我也喜欢周庄”分词成:“我”“也”“喜欢”“周庄”。虽然分成了一个个的词,但是句子里有一些没有意义的停词,如例子中的“也”,要将其过滤掉,该过程使用一个含有1 000多个停词的词库,可以实现停词过滤。分词这一步尤为重要,分词效果的好坏直接影响了后面分析的准确性。依据Rwordseg包里自带的词典,文本被分为一个个的词。为了提高准确度,还添加了搜狗词库里针对旅游这一话题的词。为了提取有用的信息,进一步过滤掉一个字的词。最后统计5个景点的评论词频。截取排序前20的词,见表1。
依据统计的各景点的词频制作词云图,让统计结果更加直观,便于寻找主要属性特征。鉴于一些高词频结果与研究目的无关(如关于周庄的词频统计里,“周庄”一词出现了1 894次,显然,这是对周庄的评论,自然“周庄”是高频词)。筛选掉无意义的高频词,制作得到词云图,如图1~图5所示。
2.2 总结热点词及情感分析
基于词频统计结果,分析词频表,合并同义词,再组成话题热词。例如,5个景点都有对景区门票、景区内物价的评论。把该类关于消费的词组合并,提取出一个属性,叫做“价格制度”。其中,黄姚古镇的“门票”“学生证”“免费”等词的词频数之和为119,可计算价格制度词频数及该话题所占比重。最终得到的属性见表2。
本文还运用了 Python对文本进行情感分析,其中运用了SnowNLP组件。SnowNLP是一个利用Python编写的类库,主要针对中文分词等文本处理,优点是自带了一些训练好的字典,用起来比较方便,准确度也高。Python软件运行情感分析的SnowNLP库。其计算情感指数的原理是:首先,规定情感为两类--积极情感和消极情感。根据 贝叶斯定理,文本属于积极类(C)的概率是由类别的概率P(C)乘以每个文本在类别C中的条件概率得来的:
其中,count(di,C)表示词di在C中出现的次数,TC是C类别的词总数,n是进行分类的文本中词组的数量。运用该组件得到的评分结果取值范围是(0,1)。
3 研究结果及数据展示
3.1 热点话题的构成情况
从图6可以得到直观的结论。纵向来看,对于每个古镇,其历史文化被提到的次数最多。可以看出,游客选择到古镇旅游的目的是明确的,这一类旅游项目提供的主要是历史人文的氛围。在5个景区的属性占比里,自然风光占总关注度比例最少(除了西江千户苗寨),自然风景也不是该类旅游项目的重点。研究对象中,周庄的历史人文关注度最高。西江千户苗寨的民族特色占比最多,其次是自然风光。而深入了解可知,西江千户苗寨主打的苗族特色鲜明,并且房屋依山而建,加上山顶的观景台,人文与自然风景相结合,因此游客对风景的关注度也比较高。甲居藏寨的关注热点是独具的藏族民俗文化和建筑风格,即民族特色,包括特有的少数民族的习俗、特有的人文风貌。西塘古镇的话题结构与周庄古镇相似,也有江南水乡的美誉。
横向来看,最具特色的是西江千户苗寨和甲居藏寨,自然风景占比最高的是西江千户苗寨,而最具人文历史的景区是周庄古镇。每个景点都有不同程度的商业化,其中较为严重的是黄姚古镇、周庄古镇、西塘古镇这3个景区。可以从过去景区规划和发展里看出,这些地方已经被开发得比较好了,但是过度商业化造成大多古镇雷同,失去自身特色。西江千户苗寨和甲居藏寨商业化较轻,这与地理位置有关,一般来说偏远村落能更好地保持其原生态。在价格消费方面,西江千户苗寨的关注度是最少的。经查评论,黄姚古镇、周庄古镇和西塘古镇的门票关注度是价格属性里最高的,可见人们对景区门票等收费制度也是比较看重的。
3.2 收费制度对评分的影响
单因素方差分析用来分析一个因素是否明显造成两组数据的不同。其中,实验结果P值是决定是否接受原假设的关键阈值,它体现了实验组别之间差别的显著性。如果P值小于0.05,就有统计意义;如果大于0.05,说明所有组别都没有差别,即这个因素不对样本造成影响。在景点属性里,评论展现了人们对景区的价格制度具有较多的负面评价,而门票价格是价格制度里的主要组成。为证实人们确实不满意景区的收费制度,以门票为因素,假设其不对评论结果造成影响,进行单因素方差分析。若实验结果P值小于0.05,拒绝原假设,并认为门票制度确实对评价结果造成显著差别。
除了西江千户苗寨的评论对门票关注度比较低,其他几个景点都很高。因此分析各景点门票是否对最终体验好感度造成明显差异是有必要的。基于情感分析输出结果,对各古镇门票进行单因素方差分析。先将包含“门票”一词的评论和没有该词的评论分开,单独构成数据,再进行单因素方差分析,分析结果见表3。本节没有包括西江千户苗寨的方差分析结果,原因是只有该古镇的实验结果P值大于0.05,“门票”因素才不造成显著影响,无需进一步讨论。观察表3的实验结果可知,门票确实对甲居藏寨、周庄古镇、西塘古镇、黄姚古镇的游客的评分造成显著影响。并且包含门票的评分均值都低于不包含门票的评分。
4 古镇模糊综合评价模型
本节将对整个古典旅游进行最终评分。每个古镇由于地理位置、开发程度和所在地的经济发展等因素不同,游客的好感度也会受影响。有的省份注重旅游业的发展,旅游市场规划和管理得较好,且服务业的发达程度也会影响人们的满意度。为了对古镇的旅游作出最终评分,构建了一个模糊综合评分模型。由于旅游业属于第三产业,为了方便获取数据,笔者取各景区所在地的第三产业占比作为因子分析的数据。目的是依据各地的第三产业的重要性决定各景区的权重。把5个景点当作5个不同的属性,旅游业发展规划良好的地区应赋予较大权重。
4.1 第三产业占比的因子分析
因子分析的基本目的就是用少数几个因子描述许多指标或因素之间的联系,即将比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息。每个因子中,因子载荷越大,说明该因子对结果的贡献越大。运用因子分析可以得到景区所属地区的第三产业的贡献率,即可得到各地区的旅游业权重。所谓权重,是指某指标在整体评价中的相对重要程度。权重越大,则该指标的重要性越高,对整体的影响就越高。本文选取每个景区所属省份从1990年到2015年第三产业的贡献率进行因子分析。首先进行KMO(Kaiser-Meyer-Olkin)检验,检验结果见表4。KMO是统计产品与服务解决方案( statistical product and service solutions,SPSS)提供的用于判断原始变量是否适合进行因子分析的统计检验方法之一。KMO值的大小可以决定是否有进一步分析的必要。若KMO值大于0.5,则因子分析可以进行。由表4可知,KMO检验结果为0.735 9,大于0.5,数据可以做因子分析,v1~v5表示5个景区所属省份的第三产业占比。
选取特征值大于1且贡献率大于80%的因子。只有一个特征值大于1,为3.320 32,见表5。后面4个因子可以省去,选取特征值最大的公共因子。由因子载荷得到归一化处理的权重w,见表6。
4.2 综合评价模型构建
为了得到总体游客的态度,不能单纯地计算评分结果的均值。原因是游客的评价通常不是单一的积极或消极这么简单。机器计算结果是基于字面表达上的积极词和消极词得来的。但是具体评判分值只依据一段文字表达不够准确。建立模糊评价模型可以包容情感分析带来的文字到数值转化的误差。而且由于模糊的方法更接近东方人的思维习惯,因此更适合对社会经济系统问题进行评价。
对5个景点的情感评分分别以条件0≤q≤0.3,0.3≤q≤0.6,0.6≤q≤1分为3组,表示态度消极、中肯、积极,并计算各组占比,计算结果见表7。把原来0~1的评分结果转化成1~5分的评分标准。转化为5分制后,个人的情感倾向更加分明。
得到比重矩阵R:
将消极、中肯、积极分别赋予分值1、3、5。计算最终评分:
最终得到的评分Q为4.180 2,接近5分满分。可以看出,虽然游客对一些商业化和不合理收费等有明显负面情绪,但总的来说对古镇旅游体验是比较满意的。该模型可以运用到国内更多数量的古镇旅游的评分中。
5 结束语
通过对网络文本数据进行挖掘和统计分析以及进一步构建模糊综合评价模型,得出游客对古镇旅游态度及相关因素的结论如下。
游客选择古镇旅游,关注度最高的是其文化价值,其次是各个古镇的特色及环境。随着景区的开发,商业气息趋严重。而伴随着商业化的同时,每个古镇的特色会削弱,对游客的体验造成负面影响。游客对景区里的消费也十分敏感,在黄姚古镇、西塘古镇、周庄古镇,游客对商业化感受比重占到了12%以上,应该引起有关部门的重视,予以管束,在开发特色旅游的同时,保护景区的环境,营造良好的历史文化氛围。
除了不适当的商业化影响游客对古镇旅游的态度,消费制度也是关注热点。本文研究了游客对价格制度的态度及其影响。结论基于对门票价格的分析,游客确实对收费制度敏感,且对收费敏感的游客均持负面评价。在选取的5个研究对象里,只有一个古镇的游客表示门票等收费合理。大部分游客认为景区内物非所值,甚至抱怨有不透明收费的现象。这种充斥着消费气息的古镇旅游项目不利于长久发展。景区应结合自身的服务设施等调节景区内消费价格,整改冗余的收费项目。有关部门应予以管制,规范旅游市场。
结合地区第三产业的比重,得到游客对古镇旅游的模糊综合评价。从最终评分结果来看,游客的总体态度是积极的。这也解释了为什么游客在对消费制度和商业化如此敏感的情况下,古镇旅游项目每年接待人次屡创新高。游客对负面影响因素有明显的感知,但是这并没有打击游客的积极性。
点击下方 阅读原文 即可获取全文
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的科技期刊。
以上是关于基于文本挖掘的游客对古镇旅游态度的分析的主要内容,如果未能解决你的问题,请参考以下文章