国赛数模2017B思路汇总第一部分(题目一)
Posted 好奇小圈
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了国赛数模2017B思路汇总第一部分(题目一)相关的知识,希望对你有一定的参考价值。
前言
笔者是在读本科生,尝试复刻数模国赛2017B题后,对国家一等奖论文做出总结,并说出自己的一些想法,以图提高自身建模水平。
原题
B题 “拍照赚钱”的任务定价
“拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。这种基于移动互联网的自助式劳务众包平台,为企业提供各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保证了调查数据真实性,缩短了调查的周期。因此APP成为该平台运行的核心,而APP中的任务定价又是其核心要素。如果定价不合理,有的任务就会无人问津,而导致商品检查的失败。
附件一是一个已结束项目的任务数据,包含了每个任务的位置、定价和完成情况(“1”表示完成,“0”表示未完成);附件二是会员信息数据,包含了会员的位置、信誉值、参考其信誉给出的任务开始预订时间和预订限额,原则上会员信誉越高,越优先开始挑选任务,其配额也就越大(任务分配时实际上是根据预订限额所占比例进行配发);附件三是一个新的检查项目任务数据,只有任务的位置信息。请完成下面的问题:
1.研究附件一中项目的任务定价规律,分析任务未完成的原因。
2.为附件一中的项目设计新的任务定价方案,并和原方案进行比较。
3.实际情况下,多个任务可能因为位置比较集中,导致用户会争相选择,一种考虑是将这些任务联合在一起打包发布。在这种考虑下,如何修改前面的定价模型,对最终的任务完成情况又有什么影响?
4.对附件三中的新项目给出你的任务定价方案,并评价该方案的实施效果。
附件一:已结束项目任务数据
附件二:会员信息数据
附件三:新项目任务数据
题目一
1、聚类法
(1)k均值法+多元线性回归(B104)
(1)先绘制散点图,发现多数会员位于广东省内,因此排除广东省外的少数数据。
(2)用k均值聚类将会员分为三个大类(大体上是广佛,东莞,深圳),找出聚类中心。
(3)设定指标“偏僻程度”、“会员密度”、“任务密度”三个指标,并进行标准化
z 1 = ∣ P i O j ∣ ∣ P m O j ∣ = ( x i 2 − x j 2 ) + ( y i 2 − y j 2 ) ( x m 2 − x j 2 ) + ( y m 2 − y j 2 ) z_{1}=\\frac{\\left|P_{i} O_{j}\\right|}{\\left|P_{m} O_{j}\\right|}=\\frac{\\sqrt{\\left(x_{i}^{2}-x_{j}^{2}\\right)+\\left(y_{i}^{2}-y_{j}^{2}\\right)}}{\\sqrt{\\left(x_{m}^{2}-x_{j}^{2}\\right)+\\left(y_{m}^{2}-y_{j}^{2}\\right)}} z1=∣PmOj∣∣PiOj∣=(xm2−xj2)+(ym2−yj2)(xi2−xj2)+(yi2−yj2)
记
z
2
z_{2}
z2 为会员密度。
z
2
=
n
m
−
n
i
n
m
z_{2}=\\frac{n_{m}-n_{i}}{n_{m}}
z2=nmnm−ni
n
i
n_{\\mathrm{i}}
ni 为任务点
1.5
k
m
1.5 \\mathrm{~km}
1.5 km 圆域内的会员数量,
n
m
n_{\\mathrm{m}}
nm 是
n
i
n_{\\mathrm{i}}
ni 的最大值。
记
z
3
z_{3}
z3 为任务密度。
z
3
=
m
m
−
m
i
m
m
z_{3}=\\frac{m_{m}-m_{i}}{m_{m}}
z3=mmmm−mi
(4)然后根据已有的定价数据对这三个自变量进行拟合,即可得到定价公式。
w
=
8.2233
z
1
−
0.1959
z
2
+
3.7487
z
3
+
65
w=8.2233 z_{1}-0.1959 z_{2}+3.7487 z_{3}+65
w=8.2233z1−0.1959z2+3.7487z3+65
(2)FCM地理中心聚类+一元函数(B353)
相比K均值聚类,这种方法显得更加专业 以上是关于国赛数模2017B思路汇总第一部分(题目一)的主要内容,如果未能解决你的问题,请参考以下文章
(1)通过调用 MATLAB 函数中[center, U, obj_fcn] = FCM(data, cluster_n, options)语句实现FCM聚类。
(2)Options 中, 隶属度矩阵
U
\\mathrm{U}
U 的指数设为
3.0
3.0
3.0; 最大迭代次数设为 50 次, 迭代待终止条件为隶属度最小变化量小于
1
e
−
5
1 \\mathrm{e}-5
1e−5.
(3)根据聚类中心,对距离和定价进行一元线性拟合
f
(
x
)
=
a
x
+
b
f(x)=a x+b
f(x)=ax+b,即可得到对应每个聚类中心的线性函数。
(4)进行聚类有效性分析,本文采用的是内部指标:Calinski-Harabasz(CH),Davies-Bouldin(DB)。
1.
C
H
\\mathrm{CH}
CH 指标
C
H
\\mathrm{CH}
CH 指标通过类内离差矩阵描述紧密度, 类间离差矩阵描述分离度, 指标定义为
C
H
(
k
)
=
tr
B
(
k
)
/
(
k
−
1
)
tr
W
(
k
)
/
(
n
−
k
)
C H(k)=\\frac{\\operatorname{tr} B(k) /(k-1)}{\\operatorname{tr} W(k) /(n-k)}
CH(k)=trW(k)/(n−k)trB(k)/(k−1)
其中,
n
n
n 表示聚类的数目,
k
k
k 表示当前的类,
tr
B
(
k
)
\\operatorname{tr} B(k)
trB(k) 表示类间离差矩阵的迹,
tr
W
(
k
)
\\operatorname{tr} W(k)
trW(k) 表示类内
离差矩阵的迹。
C
H
C H
CH 越大代表着类自身越紧密,类与类之间越分散, 即更优的聚类结果。
2. DB 指标
DB 指标通过描述样本的类内散度与各聚类中心的间距, 定义为
D
B
(
k
)
=
1
K
∑
i
=
1
K
max
j
=
1
−
k
,
j
=
i
(
W
i
+
W
j
C
i
j
)
D B(k)=\\frac{1}{K} \\sum_{i=1}^{K} \\max _{j=1-k, j=i}\\left(\\frac{W_{i}+W_{j}}{C_{i j}}\\right)
DB(k)=K1i=1∑Kj=1−k,j=imax(CijWi+Wj)
其中,
K
K
K 是聚类数目,