在线旅游推荐系统的效度评估 — Web数据挖掘 | 社论前沿
Posted 社论前沿
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了在线旅游推荐系统的效度评估 — Web数据挖掘 | 社论前沿相关的知识,希望对你有一定的参考价值。
编者按: 智慧旅游的概念最近引起了学者和从业者的广泛关注,旨在通过开发IT基础设施来加速服务创新,改善旅游体验并提高目的地竞争力。基于此,旅游目的地营销组织(DMO)扮演的角色 - 即了解旅行者期望并提供有针对性的信息和服务 - 变得更加重要。本文以在线推荐系统为基础,评估了旅行者和旅游目的地营销人员关于目的地的描述性语言差异,提供了一些可能提高推荐能力的方法学扩展。
会议及游客局(CVBs)是当地旅游业的重要信息经纪人和传播者。在当地社区的财政支持下,CVBs的关键目标之一是将当地景区推广给休闲和商务旅客。随着互联网的出现,许多CVBs已经采用在线应用程序向旅行者提供旅游信息。但是,通过CVBs网站获取相关信息可能会导致“信息超载”,游客很难找到有针对性的信息并做出合适选择,存在严重的信息不匹配问题。
以往研究也发现,目的地旅行者关注的信息往往与供应商强调的不一致。因此,可以引导一个重要的研究问题来测量旅行者关于目的地的期待和营销人员提供的信息是否相呼应,以便构建以人为本的在线推荐系统。
本文的主要目标是通过比较CVBs上提供的目的地信息和游客的描述文本之间的差异,来评估CVBs推荐系统的有效性。重点关注 “购物”、“餐饮”、“夜生活和活动”和“景点”四个方面的内容。
1.数据采集
(1) 关于旅游目的地的选取
在美国中西部地区,有一百名大学生被招募,从吸引力和兴奋度(attractiveness and excitement)两方面来评估34个美国主要城市。这些学生之前都有过这些城市的旅行经历或有关想法。为了选择具有特色的城市,根据视觉地图将城市划分为四个等级。如图2所示,根据城市吸引力和兴奋度选取了拉斯维加斯、檀香山、纽约、芝加哥等11个城市。
(2)获取描述性文本
旅游目的地的描述文本数据分别从旅行者和营销者两方面来收集。
关于旅行者的描述文本,从大学生中收集了85份样本,最终获得描述脚本的总数是935。调查要求被调查者阐述他们对选定的11个城市关于餐饮,购物,夜间活动等主要方面预期经历或看法。
关于营销者的描述文本,提取了选定的11个城市CVBs上的文本内容。
2. 数据预处理
文本数据预处理的三个步骤:(1)删除所有“离群”词(如"a", "an", "the" ,"you", "and", "but"等),只分析有意义的词汇; (2)用单数词代替复数词; (3)用现在的时态替代所有的其他动词时态。
3. Jaccard距离评分
由于聚类分析通常会生成复杂的语言聚类结果,没有提供距离的大小信息,因此仅仅通过观察聚类结果就很难评估不同类别之间的差异。本文采用Jaccard距离评分来进一步量化描述文本之间的差异。
Jaccard距离评分测量聚类结果之间的差异程度。可以用来测量评估方案S和真实最佳方案T之间的距离。Jaccard距离得分的值从0(无差异)到 1(完全差异)。计算Jaccard距离的公式如下所示:
在本文的研究中,最佳方案T基于旅行者的描述,方案S基于在线推荐系统的描述。n11在到S和T中聚类到同一类别的词汇数,n01是仅在S中聚在一起的词汇数,n10是仅在T中聚在一起的词汇数。
1. 总体差异
首先估计两方面描述文本之间的总体差异。如图3所示,奥兰多,坦帕,洛杉矶和芝加哥与丹佛,巴尔的摩和纽约的总体差异较小,大约0.87。剩下的四座城市(底特律,檀香山,拉斯维加斯和匹兹堡)的Jaccard距离分数都接近0.98。总体来说,一线城市(即高吸引力和兴奋度)和四线城市(即低吸引力和兴奋度)显示出更大的语言差异。而二线城市表现出的语言差异较小。以下将从四个方面(即购物,餐饮,夜间活动和景点)具体分析。
2. 购物
如图4所示,其形状呈现与总体差异相似的特征。但是,购物信息上的Jaccard距离得分略小于总体差异的得分。这表明,描述旅行者和营销者之间在旅游目的地的购物体验相关的连贯性,特别是奥兰多,坦帕,洛杉矶和芝加哥这些二线城市。 相比之下,檀香山似乎是旅游者期望和CVB推广体验最不匹配的目的地。
3. 用餐
图5显示的用餐感知定位图形状也呈现出与整体差异类似的特征。包括拉斯维加斯(0.97)和火奴鲁鲁(0.99)在内的一线城市得分最高。关于餐饮类的描述语言表现出与购物差异非常相似的Jaccard距离得分,但它们都略小于总体差异的分数。
4. 夜生活和活动
与整体差异、购物和用餐的形状相比,夜生活和活动呈现出不同的形式(图6)。具体来说,大部分Jaccard距离得分都高于0.92,表明CVBs网站和旅行者关于夜生活的描述存在较大差距。特别地,奥兰多,坦帕和洛杉矶三个目的地的Jaccard距离分数在购物和用餐体验中低于0.90,而夜生活和活动的分数在0.95左右。在底特律(四线城市)和丹佛(三线城市)目的地也发现了相反的模式。有趣的是,相比于购物和餐饮,游客在夜生活和活动中使用更时髦和有趣(trendier and fancier)的词汇,而CVB网站通常在所有类别中保持相似的风格。
5. 景点
所有目的地的旅游景点距离均在0.95附近。旅游者和营销人员在描述景点体验时显示出最大的语言描述区别。
旅行者关于目的地的描述文本与CVB网站提供的信息在旅游体验的四个方面表现出不同程度的差异。总体来说,夜间生活/活动和景点的独特差异已经确定;一线目的地(例如拉斯维加斯和檀香山)显示相对较高的距离分数。提供个性化的推荐信息和服务以满足在线旅行者的信息搜索需求,是在线推荐系统应该努力发展的方向。
此外,考虑到旅游业高参与性与高体验性的性质,行程规划中信息处理的需求似乎是多维的,不仅包括功能性的,还包括新颖性或情感价值。因此,在线推荐系统提供的目的地信息应该能够满足旅客在搜索过程中的这种异构需求。
文献来源:
Park S, Kim D Y. Assessing language discrepancies between travelers and online travel recommendation systems: Application of the Jaccard distance score to web data mining[J]. Technological Forecasting & Social Change, 2017, 123.
文献整理:杨博文
这是社论前沿第S939期推送
以上是关于在线旅游推荐系统的效度评估 — Web数据挖掘 | 社论前沿的主要内容,如果未能解决你的问题,请参考以下文章