魔镜杯决赛数据产品组入围奖-Paddle团队作品
Posted 科赛Kesci
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了魔镜杯决赛数据产品组入围奖-Paddle团队作品相关的知识,希望对你有一定的参考价值。
【团队介绍】
Paddle——一支来自华南理工大学软件工程学院的五人小分队,其中四人来自同一实验室,研究方向为自然语言处理。
论起魔镜杯比赛的缘起,在他们看来这更多的是一个美丽的机缘巧合,“同班的一个同学在班群里转发了这则消息,正好我们五个当中有4个是在同一个实验室的,当时实验室的研究课题跟这个很相似,我们想着说可以去试试。”除此之外,初出茅庐的他们也想对自己的实力进行一次客观的评测,只有准确了解自己在同行中的排位,才能更好的为自己的发展确定更好的方向。
他们的作品为“P2P网贷信息监控与分析系统”,该系统目的是为了更好的为投资者提供信息服务,运用话题挖掘、情感分析、意见挖掘等文本挖掘技术,帮助投资者发现数字背后的规律,实现投资风险透明化,解决投资者和P2P平台之间的信息不对称的问题。
与其他产品相比,研究方向为文本挖掘的他们文本挖掘技术相对成熟,在准备作品期间参照大量论文,有扎实的理论基础,特别体现在评论信息的意见挖掘上;除此之外,他们提出了一个三层聚类的舆情话题演化模型,爬取到的新闻资讯聚类成话题,通过三层聚类算法实时发现舆情热点话题并追踪热点话题发展动态和舆论变化趋势;最后,在情感分析方面考虑了句法结构,使得整体方案精度更高。
下面就请随小科一起,领略paddle团队作品的魅力吧~
1.背景介绍
最近P2P平台的问题层出不穷, “跑路、诈骗、老板失联、倒闭、网站关闭”等问题不绝于耳,如何降低投资风险,及时把控P2P平台的发展动态成为了人们越来越关心的问题。我们的P2P网贷信息舆情监控系统对P2P平台进行多维度的分析,包括利率,成交量,投资人数,借款人数以及口碑等,帮助投资人发掘P2P行业以及企业的主要话题,选择合适的P2P平台进行稳健投资,实现利益最大化。
2.数据来源
数据主要分为四部分,包括新闻数据、P2P平台评论数据、P2P平台基本信息数据和新浪微博数据。其中新闻数据主要来源于P2P资讯平台,我们爬取了从2013年7月至2016年3月的共28647条新闻资讯;P2P平台的评论数据来自资讯平台上网友们对共3120个P2P平台品牌评论数据,共计56721条;从网贷之家上爬取了3120个P2P平台的基本信息,其中包括利率、成交量、投资人数、借款人数等重点指标数据;我们的数据来源还来自社交网络新浪微博,共爬取了2148条2015年11月至2016年3月的P2P相关的微博。
3.相关技术
我们从爬虫方法与工具应用、数据清洗方法、文本分析与数据分析这三个方面来介绍用到的相关技术。
爬虫方法与工具应用:用Java语言开发了支持去重、断点重爬、持续更新等功能的高智能爬虫,并且针对目前各个网站的反爬虫技术制定了特殊的爬取策略。为避免给对方的服务器造成太大的压力,我们实现了爬虫参数的可配置化,包括爬虫更新时间间隔,爬虫速率等,进而从四个P2P资讯网站和社交网站新浪微博中持续爬取到所需的大量数据。
文本分析与数据分析:文本分析包含新闻文本的分析,微博文本的分析以及评论文本的分析。
情感分析:我们使用基于依存句法结构和情感字典的方法对新闻和话题进行正负面极性计算,进而给出文本的极性分布和极性的趋势走向。
品牌口碑分析:首先通过词频-反文档频率统计并筛选出一段时间内的关键词,然后基于依存句法结构分析、结合情感字典,对品牌评论进行正负面极性计算,结合品牌评论的全部正负面极性,计算品牌的口碑。我们还建立了P2P平台领域的知识库,基于知识库给出了品牌评论的各项评价搭配,如“收益-不错”。
热点实体抽取:基于词频统计,同时人为降低热门词的权重,对热点实体的进行抽取,热点实体包括“热点人名”、“热点品牌”和“热点机构名”。
话题演化:爬取到的新闻资讯聚类成话题,通过三层聚类算法实时发现舆情热点话题并追踪热点话题发展动态和舆论变化趋势。
主题句生成:通过MSC(multi-sentence compression)算法自动生成话题的标题。
P2P网贷信息监控与分析系统是基于分布式的系统,后台使用了NoSQL类型的分布式数据库和单机数据库相结合的数据库架构,保证了大数据量下的高扩展性和高并发性,提高系统的可靠性,有便于系统后期的扩充。前端配置了前端数据库,将处理完毕的数据存放在前端数据库中,实现了后台与前端的低耦合,同时提高了系统的响应速度。
系统分为四层,自底向上分别是数据存储层、持久层、数据处理层和业务层。数据存储层搭建了mysql查询数据库,采集数据库使用了非关系型数据库:MongoDB和HBase;持久层负责数据的调度;数据处理层负责数据的清洗、去噪和数据的平滑以及给数据打标签;业务层负责数据的可视化展示,数据的采集和数据分析。
4.可视化展现
进入系统的首页我们可以看到P2P平台的各项统计图和趋势图,包括银行系、国资系等P2P平台的综合成交量和综合利率图、综合投资人数和综合贷款人数图、综合人均投资人数和综合人均贷款人数图;多维度的品牌排行榜;成交利率走势图;投资和贷款人数走势图。
首页还展示了当前新闻和微博的热点话题,以及标签云图和信息导图。
这是系统的品牌分析模块主界面,主要展示了热门品牌的排行榜、热门品牌评论比例图、品牌好评度排行榜、热门品牌口碑对比图,在界面的左边还提供了一个搜索功能,方便用户查找自己想了解的品牌。
点击选择任意一个感兴趣的品牌,就可以进入该品牌的详细介绍页面,包括品牌的信息、相似品牌、评论的评价搭配、以及评论信息。评论的评价搭配反应了评论中对该品牌的核心评价,如“收益-不错”、“服务-好”等,点击评价搭配可以定位到该评价搭配所对应的具体评论。
品牌的详细信息页面还展示了该品牌的各项统计信息,包括投资偏好分析、核心指标、成交量利率、投资借款人数趋势等,方便用户更深入直观的了解该品牌。
热点实体模块,热点实体包括热点人名、热点品牌和热点机构名。我们以热点人名为例。右边是热点人名,点击一个名字,就可以在左边展示出与该人名相关的新闻资讯,并以高亮的形式标出。
品牌区域分析模块直观的展示了p2p品牌在全国各地的分布情况。
点击单个热点话题进入到该热点话题页面,展示了该话题的今日更新和往日报道,以及该话题的热度趋势和正负面趋势图。
5.产品使用价值
“P2P网贷信息监控与分析系统”是在当前的大环境下应运而生的,其目的是为了更好的为投资者提供信息服务,解决投资者和P2P平台之间的信息不对称的问题。我们的产品具有极高的使用价值,具体表现在:1、系统实时更新舆情信息,让投资者在第一时间掌握平台的一手信息,及时把握实时动态;2、系统提供了P2P新闻和微博话题的发现和演化跟踪,对新闻资讯和微博上的网民舆论进行聚类整理,自动发现当前的热点话题,以及话题舆论导向和情感倾向;3、系统从多个维度对品牌进行了可视化展示,从多个角度深度剖析了各个P2P品牌,并从多个维度对比了P2P平台;4、系统能够及时自动地发现热点实体,包括了人名、品牌和机构名,使得用户能够在系统中一举浏览到最热门的实体,并且定位到其所在的新闻资讯;5、系统对P2P平台的网民评论做了深度的剖析,对评论的关键信息进行了抽取,并给出了各个平台的评价搭配,分析其情感倾向性,这为投资者的决策提供了有效的信息。
这是我们系统的展示链接,欢迎大家访问并提出意见和建议。
http://120.27.109.170:8080/P2PSystem
撰写 paddle团队
采访 邓以勒
编辑 汪梦梦 邓以勒
联系我们
contact
如您欣赏选手作品,有意愿进一步合作,可回复关键词【作品】至后台,获取我们的联系方式,科赛将帮助您进行沟通和协调。
推荐阅读
注:版权所有,转载请告知,获允后请注明出处。
以上是关于魔镜杯决赛数据产品组入围奖-Paddle团队作品的主要内容,如果未能解决你的问题,请参考以下文章
第十七届全国大学智能车竞赛-英飞凌LED灯光秀特别奖入围决赛队伍名单
第十七届全国大学智能车竞赛-英飞凌LED灯光秀特别奖入围决赛队伍名单
算法笔记_213:第七届蓝桥杯软件类决赛部分真题(Java语言C组)