基于位置数据的分析挖掘
Posted 格格巫 MMQ!!
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于位置数据的分析挖掘相关的知识,希望对你有一定的参考价值。
一、背景介绍
运营商主要提供的数据包括位置数据及APP行为的数据,基于这些数据我们可获知用户的偏好信息及位置信息,相当于人群的特征、人群迁徙路径等。那么在人群的需求、人群的可接触时间、人群的可接触位置都可知的情况下,对于智慧商业的发展有很大的促进作用。基于以上考虑,我们设计了几个有具体场景的应用产品,支撑多角度多需求的商业分析。
二、系统平台设计
俗话说:工欲善其事,必先利其器,为了支撑上述分析目标,需要建设相应的大数据平台与其进行匹配。大数据平台主要通过汇总收集用户运营商数据,对其进行加工处理后,生成专门的数据库存储。同时经过算法层各方法的计算处理后,具备基础的报表分析能力、数据挖掘能力等,用以支撑一系列上层应用的实施,例如:区域人流量检测、商机发现、个性化智能推荐等。
2.1位置信息填补
在使用用户的位置信息前,需要保证位置信息相对完整。而在移动通信过程中,一般只有在用户发生通信行为(打电话、发短信)或者用户连接基站发生改变的时候,记录用户的经纬度信息。这就导致经纬度信息存在较多的空白。然而后续热力图以及用户迁徙的分析都需要完整的数据,所以我们采用了三种方法进行填补:
当空白位置信息的时间位于凌晨0点至5点时,我们采取预先分析出来的该时间用户常停留位置经纬度进行填补。
当空白位置信息属于短时间内空白,即该空白时段前后时间经纬度存在的情况时,采用前后时间经纬度的数据进行填补。
当空白信息发生在较连续的一段时间内时,则根据关联规则采用最可能位置发现的顺序插补方式进行插补。
2.2位置信息库
当用户位置信息完整后,我们对经纬度信息进行了Geohash编码,Geohash编码通过一种特殊的编码方法将空间位置数据天然的划分为了不同网格,这对于后续人流聚集地的判断提供了较好的支撑。
三、智能推荐方案设计
我们整体的商业智能推荐方案主要是实现三个角度的分析:时间、人群、地点,也就是常用的3W原则。时间角度主要通过分析人流量随时间的变化趋势,展现商圈人流量密度的变化,地点角度主要通过分析空间上的人流量分布情况,同时进行了未来该地区某时间内人流量预测,实现真正意义上的时间、地点选择。
人群角度主要分析用户的来源去向,用以发现用户的路径信息及聚集点信息,同时配合用户的偏好分析结果,全面了解用户行为特征。综合以上分析结果实现天时、地利、人和的商业推荐模式。
3.1动态热力图
动态热力图展示:支持小时粒度的时间选择、商圈选择,热力图支持在点选某一小时时,动态显示该小时前后一段时间内的人流量变化情况。
3.2用户画像分析
用户画像分析展示:支持小时粒度的时间选择、商圈选择,展示用户特征构成、用户偏好特征,并支持显示动态迁徙图,动态迁徙图表明用户来源于聚集点情况,支持地图缩放。
3.2用户画像分析–算法
用户画像分析展示的后台支撑算法主要有两个:一个是用户路径跳转分析,用户路径跳转分析,主要通过位置信息库中的Geohash编码实现聚集点信息的识别,采用网格中心的经纬度作为反编译结果进行展示;另一个是用户偏好标签算法,通过正则化将数据转化为偏好评分,综合偏好评分结果生成偏好标签。我们选择的这两种算法都便于支持大数据批量计算,减少系统计算时间。
3.3区域人流量分析与预测
区域人流量分析与预测展示:支持小时粒度的时间选择、商圈选择,主要展示人流量随时间变化趋势,人流量展示地点可通过下面的热力图点选。同时支持未来时间选择,展现未来时间的人流量情况。
3.3区域人流量分析与预测–算法
人流量预测算法主要通过神经网络算法,提取需预测时间属性信息(周末、工作日、上午、下午等)、天气信息、前统计周期人流量情况等数据,经过预处理后,区分样本进行模型构建及测试,最终选择最优模型进行结果预测。
四、后续应用扩展
前面介绍的智能推荐方案实现了基础的时间、人群、地点的分析,基于这些分析可扩展到其他应用场景的分析。例如:引入百度POI兴趣点说明聚集点具体信息(住宅、娱乐等),同时通过附近的商户信息进行匹配筛选,实现商机发现的自动化过程。也可将推荐的力度细化到单个用户,通过建立网上商城引入商家信息,实时监控用户位置信息,当用户进入某基站范围内,及时推荐附近商户信息,实现用户个性化实时推荐。
整体来说,我们方案内容偏向于分析的具体实现,落地相对较为容易。
以上是关于基于位置数据的分析挖掘的主要内容,如果未能解决你的问题,请参考以下文章
数据挖掘实战3:利用层次聚类算法进行基于基站定位数据的商圈分析