国赛数模2017B思路汇总第一部分(题目一)

Posted 好奇小圈

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了国赛数模2017B思路汇总第一部分(题目一)相关的知识,希望对你有一定的参考价值。

前言

笔者是在读本科生,尝试复刻数模国赛2017B题后,对国家一等奖论文做出总结,并说出自己的一些想法,以图提高自身建模水平。

原题

B题 “拍照赚钱”的任务定价

“拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。这种基于移动互联网的自助式劳务众包平台,为企业提供各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保证了调查数据真实性,缩短了调查的周期。因此APP成为该平台运行的核心,而APP中的任务定价又是其核心要素。如果定价不合理,有的任务就会无人问津,而导致商品检查的失败。
附件一是一个已结束项目的任务数据,包含了每个任务的位置、定价和完成情况(“1”表示完成,“0”表示未完成);附件二是会员信息数据,包含了会员的位置、信誉值、参考其信誉给出的任务开始预订时间和预订限额,原则上会员信誉越高,越优先开始挑选任务,其配额也就越大(任务分配时实际上是根据预订限额所占比例进行配发);附件三是一个新的检查项目任务数据,只有任务的位置信息。请完成下面的问题:
1.研究附件一中项目的任务定价规律,分析任务未完成的原因。
2.为附件一中的项目设计新的任务定价方案,并和原方案进行比较。
3.实际情况下,多个任务可能因为位置比较集中,导致用户会争相选择,一种考虑是将这些任务联合在一起打包发布。在这种考虑下,如何修改前面的定价模型,对最终的任务完成情况又有什么影响?
4.对附件三中的新项目给出你的任务定价方案,并评价该方案的实施效果。

附件一:已结束项目任务数据
附件二:会员信息数据
附件三:新项目任务数据

题目一

1、聚类法

(1)k均值法+多元线性回归(B104)

(1)先绘制散点图,发现多数会员位于广东省内,因此排除广东省外的少数数据。
(2)用k均值聚类将会员分为三个大类(大体上是广佛,东莞,深圳),找出聚类中心。

(3)设定指标“偏僻程度”、“会员密度”、“任务密度”三个指标,并进行标准化

z 1 = ∣ P i O j ∣ ∣ P m O j ∣ = ( x i 2 − x j 2 ) + ( y i 2 − y j 2 ) ( x m 2 − x j 2 ) + ( y m 2 − y j 2 ) z_{1}=\\frac{\\left|P_{i} O_{j}\\right|}{\\left|P_{m} O_{j}\\right|}=\\frac{\\sqrt{\\left(x_{i}^{2}-x_{j}^{2}\\right)+\\left(y_{i}^{2}-y_{j}^{2}\\right)}}{\\sqrt{\\left(x_{m}^{2}-x_{j}^{2}\\right)+\\left(y_{m}^{2}-y_{j}^{2}\\right)}} z1=PmOjPiOj=(xm2xj2)+(ym2yj2) (xi2xj2)+(yi2yj2)

z 2 z_{2} z2 为会员密度。
z 2 = n m − n i n m z_{2}=\\frac{n_{m}-n_{i}}{n_{m}} z2=nmnmni
n i n_{\\mathrm{i}} ni 为任务点 1.5   k m 1.5 \\mathrm{~km} 1.5 km 圆域内的会员数量, n m n_{\\mathrm{m}} nm n i n_{\\mathrm{i}} ni 的最大值。
z 3 z_{3} z3 为任务密度。
z 3 = m m − m i m m z_{3}=\\frac{m_{m}-m_{i}}{m_{m}} z3=mmmmmi

(4)然后根据已有的定价数据对这三个自变量进行拟合,即可得到定价公式。
w = 8.2233 z 1 − 0.1959 z 2 + 3.7487 z 3 + 65 w=8.2233 z_{1}-0.1959 z_{2}+3.7487 z_{3}+65 w=8.2233z10.1959z2+3.7487z3+65

(2)FCM地理中心聚类+一元函数(B353)

相比K均值聚类,这种方法显得更加专业
(1)通过调用 MATLAB 函数中[center, U, obj_fcn] = FCM(data, cluster_n, options)语句实现FCM聚类。
(2)Options 中, 隶属度矩阵 U \\mathrm{U} U 的指数设为 3.0 3.0 3.0; 最大迭代次数设为 50 次, 迭代待终止条件为隶属度最小变化量小于 1 e − 5 1 \\mathrm{e}-5 1e5.
(3)根据聚类中心,对距离和定价进行一元线性拟合 f ( x ) = a x + b f(x)=a x+b f(x)=ax+b,即可得到对应每个聚类中心的线性函数。
(4)进行聚类有效性分析,本文采用的是内部指标:Calinski-Harabasz(CH),Davies-Bouldin(DB)。
1. C H \\mathrm{CH} CH 指标
C H \\mathrm{CH} CH 指标通过类内离差矩阵描述紧密度, 类间离差矩阵描述分离度, 指标定义为
C H ( k ) = tr ⁡ B ( k ) / ( k − 1 ) tr ⁡ W ( k ) / ( n − k ) C H(k)=\\frac{\\operatorname{tr} B(k) /(k-1)}{\\operatorname{tr} W(k) /(n-k)} CH(k)=trW(k)/(nk)trB(k)/(k1)
其中, n n n 表示聚类的数目, k k k 表示当前的类, tr ⁡ B ( k ) \\operatorname{tr} B(k) trB(k) 表示类间离差矩阵的迹, tr ⁡ W ( k ) \\operatorname{tr} W(k) trW(k) 表示类内
离差矩阵的迹。 C H C H CH 越大代表着类自身越紧密,类与类之间越分散, 即更优的聚类结果。
2. DB 指标
DB 指标通过描述样本的类内散度与各聚类中心的间距, 定义为
D B ( k ) = 1 K ∑ i = 1 K max ⁡ j = 1 − k , j = i ( W i + W j C i j ) D B(k)=\\frac{1}{K} \\sum_{i=1}^{K} \\max _{j=1-k, j=i}\\left(\\frac{W_{i}+W_{j}}{C_{i j}}\\right) DB(k)=K1i=1Kj=1k,j=imax(CijWi+Wj)
其中, K K K 是聚类数目,

以上是关于国赛数模2017B思路汇总第一部分(题目一)的主要内容,如果未能解决你的问题,请参考以下文章

2019年数学建模国赛总结经验分享

2019数模国赛总结

2021数学建模国赛C题程序 跑通版 程序开源

数模——经历回忆篇

7天掌握数模常用算法应用与Matlab编程

基于SPSS的Fisher线性判别分析(国赛数模2020C第二题为例)