第十届“泰迪杯”数据挖掘挑战赛C题:疫情背景下的周边游需求图谱分析 赛后总结46页论文及代码

Posted Better Bench

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第十届“泰迪杯”数据挖掘挑战赛C题:疫情背景下的周边游需求图谱分析 赛后总结46页论文及代码相关的知识,希望对你有一定的参考价值。

1 相关链接

(1)问题一方案及实现博客介绍

(2)问题二方案及实现博客介绍

(3)问题三方案及实现博客介绍

(4)问题四代码和方案

(5)46页论文

2 方案

针对问题一: 为了实现文本二分类,手动标注了部分数据集作为训练集和测试集,利用中科院计算所的分词系统接口进行分词,哈工大的停用词表去停用词,再提取1000维度的TFIDF特征,最后采用基于支持向量机的二分类算法模型训练,测试集验证准确率达为0.82,召回率0.83,F1值0.83。
针对问题二: 在问题一的基础上,对微信公号中的文本进行筛选,选择与文旅相关的样本。再从附件中的酒店评论、景区评论、餐饮评论、游记攻略和微信公众号的文本中,选择部分样本采用 BIOES 标注体系进行实体标注。最后训练基于改进的Bert命名实体算法,再用该算法进行预测所有数据集。建立从旅游产品的频次和情感分析两个角度的热度评价模型,分析得出2018年至2021年最热门的旅游产品分别为清香面包店(车田街店)、元晟坊蛋糕(南香公园店)、菠斯蒂蛋糕、友情有意音乐餐厅。
针对问题三: 在问题二的基础上,对数据集中每个样本进行旅游产品独热编码,计算所有产品的支持度、置信度和提升度,并以三者的加权作为关联度。并选择关联度大于0的旅游产品进行了关联图谱可视化。
针对问题四: 根据疫情前后的历史数据做出的关联图谱、旅游产品热度和种类可视化对比,从旅游产品之间的关联性、旅游产品热度和旅游产品种类三个角度分析了疫情所带来的影响和变化。并根据分析结果对当地部门提出合适的防控建议和增大旅游业发展的建议。

**关键词:**文本分类;命名实体;旅游产品;知识图谱;

3 论文部分图片






4 论文

完整论文下载

以上是关于第十届“泰迪杯”数据挖掘挑战赛C题:疫情背景下的周边游需求图谱分析 赛后总结46页论文及代码的主要内容,如果未能解决你的问题,请参考以下文章

第十届“泰迪杯”数据挖掘挑战赛C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现

第十一届泰迪杯数据挖掘挑战赛A 题:新冠疫情防控数据的分析 思路+代码(持续更新)

第十届“泰迪杯”数据挖掘挑战赛B题:电力系统负荷预测分析 31页省一等奖论文及代码

第十届“泰迪杯”数据挖掘挑战赛B题:电力系统负荷预测分析 31页省一等奖论文及代码

第十届“泰迪杯”数据挖掘挑战赛B题python实现

第十届“泰迪杯”数据挖掘挑战赛B题:电力系统负荷预测分析 问题二 时间突变分析 Python实现