2023美赛Y题二手帆船价格--成品论文思路数据代码
Posted 黎燃(主号)
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2023美赛Y题二手帆船价格--成品论文思路数据代码相关的知识,希望对你有一定的参考价值。
2023美赛Y题二手帆船价格
第一时间在CSDN分享
最新进度在文章最下方卡片,加入获取一手资源:2023美赛Y题二手帆船价格–成品论文、思路、数据、代码
可以提供关于帆船特性的信息:
BoatTrader (https://www.boattrader.com/):一个网站,允许您根据不同的标准,包括长度、制造商和型号,搜索新的和旧的帆船。该站点可以提供一些关于帆船特性的基本信息,如横梁、吃水和排水量。
SailboatData (https://sailboatdata.com/):帆船规格和图纸数据库。该网站包括关于各种帆船型号的梁、吃水、排水量、帆面积和其他帆船特性的信息。
YachtWorld (https://www.yachtworld.com/):一个网站,允许您根据不同的标准,包括长度、制造商和型号,搜索新的和旧的帆船。该站点可以提供一些关于帆船特性的基本信息,如横梁、吃水和排水量。
帆船杂志(https://www.sailmagazine.com/boats):,一个以帆船评论和文章为特色的网站。该网站可以提供有关帆船特性的信息,如索具、风帆面积、船体材料和电子设备。更新中,及时进群,我会在群里第一时间发布更新通知
为了建立一个数学模型来解释所提供的电子表格中每艘帆船的标价,我们可以使用回归分析。回归分析是一种统计方法,用于确定因变量(在本例中为上市价格)与一个或多个自变量(如制造、变体、长度、地理区域、年份等)之间的关系。
汇总统计信息将提供关于模型中每个变量的系数、标准误差、p值和r平方值的信息。我们可以使用这些信息来评估每种帆船品种价格估计的准确性,并确定哪些变量对预测上市价格最重要。
除了提供的数据之外,我们还可以使用其他来源来了解给定帆船的其他特性,如横梁、吃水、排水量、索具、帆面积、船体材料、发动机小时数、睡眠容量、净空、电子设备等。按年份和地区划分的经济数据也可用于补充分析。例如,我们可以包括诸如通货膨胀率、汇率和利率等变量,以解释可能影响列出价格的经济因素。这些数据的来源可能包括行业报告、政府统计数据和市场研究。
import pandas as pd
import numpy as np
import statsmodels.api as sm
# 加载数据
monohulls = pd.read_csv('Monohulled Sailboats.csv')
catamarans = pd.read_csv('Catamarans.csv')
# 类别特征编码
monohulls = pd.get_dummies(monohulls, columns=['Geographic Region'])
catamarans = pd.get_dummies(catamarans, columns=['Geographic Region'])
# 合并
data = pd.concat([monohulls, catamarans], ignore_index=True)
# 选择变量进行回归分析
X = data[['Length (ft)', 'Year', 'Make', 'Variant', 'Geographic Region_Caribbean', 'Geographic Region_Europe', 'Geographic Region_United States']]
y = data['Listing Price (USD)']
# 在自变量中加上常数项
X = sm.add_constant(X)
# 拟合线性回归模型
model = sm.OLS(y, X).fit()
# 打印模型的汇总统计信息
print(model.summary())
为了分析区域对帆船上市价格的影响,我们可以使用一个包括地理区域作为预测变量的回归模型。具体来说,我们可以用以下形式拟合线性回归模型:
挂牌价格= β0 + β1 *长度+ β2 *年份+ β3 *地区
其中,挂牌价格为因变量,长度和年份为连续自变量,分别表示帆船长度和制造年份,区域为分类自变量,表示帆船所在的地理区域(欧洲、加勒比或美国)。β0、β1、β2和β3是反映每个自变量对因变量影响的回归系数。
Python的statmodels库来拟合回归模型,并获得回归系数的估计值。
import pandas as pd
import statsmodels.api as sm
# 加载数据
sailboats = pd.read_csv("monohulled sailboats.csv")
# 拟合模型
model = sm.formula.ols("Listing_Price ~ Length + Year + C(Geographic_Region)", data=sailboats).fit()
# 输出统计信息
print(model.summary())
在上面的代码中,我们使用statmodels中的ols函数来拟合一个线性回归模型,其中Listing_Price作为因变量,Length和Year作为连续自变量,Geographic_Region作为分类自变量。C()符号指定应将地理区域(Geographic_Region)视为分类变量。
model.summary()的输出将包括回归系数的估估值,包括地理区域的系数。我们可以用这些估计来分析地区对上市价格的影响。
如果地理区域的系数具有统计学意义(即p值小于选定的显著性水平,通常为0.05),那么我们可以得出结论,在控制了帆船长度和制造年份后,区域对上市价格具有显著影响。我们还可以通过对系数符号的解读,来确定某一特定地区的帆船的挂牌价格往往高于或低于其他地区的帆船。
要分析区域效应在所有帆船变体中是否一致,可以从按地区查看帆船列表的分布开始。这可以让我们初步了解是否某些地区在数据集中的比例更高,以及在哪些地区的挂牌价格往往更高或更低方面是否存在明显的模式。可以使用Python和pandas库来读入Monohulled sailboats.csv和Catamarans.csv文件,然后使用value_counts()方法来计算每个区域中的清单数量:
import pandas as pd
monohulls_df = pd.read_csv('Monohulled sailboats.csv')
catamarans_df = pd.read_csv('Catamarans.csv')
# 计算单船体船在每个区域的清单数量
monohulls_region_counts = monohulls_df['Geographic Region'].value_counts()
print("Monohulls region counts:")
print(monohulls_region_counts)
# 计算每个地区双体船的挂牌数量
catamarans_region_counts = catamarans_df['Geographic Region'].value_counts()
print("Catamarans region counts:")
print(catamarans_region_counts)
由此,我们可以看到,美国的单体船挂牌数量最多,而加勒比海的双体船挂牌数量最多。我们还可以看到,单船和双体船在各个地区的列表分布是不一样的,例如,欧洲的单船列表比双体船多,而加勒比海的双体船列表比单船多。
为了分析地域对上市价格的影响,我们可以使用以地域为分类预测变量的线性回归模型。我们可以加入其他相关的预测变量,如长度和年份,以控制它们对上市价格的影响。
import statsmodels.api as sm
# 将数据子集化,只包含相关的预测变量
monohulls_data = monohulls_df[['Length (ft)', 'Year', 'Geographic Region', 'Listing Price (USD)']].dropna()
catamarans_data = catamarans_df[['Length (ft)', 'Year', 'Geographic Region', 'Listing Price (USD)']].dropna()
# 类别特征编码
monohulls_data = pd.get_dummies(monohulls_data, columns=['Geographic Region'], prefix='region')
catamarans_data = pd.get_dummies(catamarans_data, columns=['Geographic Region'], prefix='region')
# 拟合模型
monohulls_model = sm.OLS(monohulls_data['Listing Price (USD)'], sm.add_constant(monohulls_data[['Length (ft)', 'Year', 'region_Caribbean', 'region_Europe']]))
monohulls_results = monohulls_model.fit()
print("Monohulls regression results:")
print(monohulls_results.summary())
# 拟合双体船线性回归模型
catamarans_model = sm.OLS(catamarans_data['Listing Price (USD)'], sm.add_constant(catamarans_data[['Length (ft)', 'Year', 'region_Caribbean', 'region_Europe
2023年美赛春季赛 Y题详细思路
由于今年各种各样的原因,导致美赛头一次,据说也将是最后一次,临时调整,加设春季赛。这对于急需建模奖项的大家来说是一个很好的机会。无论怎样的原因,今年美赛我们可能有所遗憾。但,春季赛也许就是弥补遗憾的一次机会。首先给大家带来春季赛Y题的简要解析,以方便大家更好的选题。以及提前预知不同的赛题将会遇到的难点,提前避雷。
Y题详细版思路,九页word
链接:https://pan.baidu.com/s/1aeTNm_PhThfFhdFLZpTsDA
提取码:sxjm
2023 MCM 问题Y:了解二手帆船的价格
问题Y,是一个以二手帆船为背景的二手价格评估问题。对于这一问题,我们可以回归本质,就是二手车的价格评估。单独查找二手帆船的价格显而易见是很冷门的,因此我们可以进行借鉴。稍后也将为大家收集相关的价格评估资料,其中尤其需要注意的就是大家可以参考这两年刚刚出过的一次二手车辆价格评估数模题,即2021年华数杯第二届的赛题,可以看一下,找一下思路。
数据处理,题干中明确的提是我们可能存在缺失数据或者其他问题。其他问题无非就是异常值问题。因此需要我们首先进行数据清理,即数据预处理阶段.对于缺失数据的处理,因队伍而异,剔除缺失数据的样本还是进行修改等操作需要各个队伍自行决断。对于异常值而言,我们第一步一定是异常值的判定,去判断什么是异常值,3sigema原则,箱型图等等,进行异常值的定义。
其次,数据处理阶段除去对于给出数据的处理,我们也要对自己收集的数据进行处理。通读全题,以及给出的数据我们很容易发现。给出的数据其实并不多,问题一也有很明显的暗示,我们可以根据其他来源给定帆船的其他特性,这也就暗示我们可以进行其他数据的收集以完善我们的问题解答。
除此之外,还有就是地区特征数据化,我们可以通读全题,发现问题二中的题设与地区有关,给出的数据也与地区有关的。因此,我们需要选择一种地区数据化的方式,这种方式很多种,大家可以有目的的进行选择。这里为了避免大家都选择同一方法,就不再这里进行举例了。
问题一,开发一个数学模型,解释提供的电子表格中每艘帆船的挂牌价格。包括任何你认为有用的预测因素。您可以利用其他来源来了解给定帆船的其他特征(如横 梁 、吃 水 、排 水 量 、索 具 、帆 面积、船 体材料、发 动机小时数、睡眠容量、净 空 、电子设备等)以及按年份和地区划分的经济数据。识别和描述所使用的所有数据来源。包括对每个帆船变种价格估计精度的讨论。
问题一,需要我们开发一个数学模型,用以解释提供的电子表格中每艘帆船的挂牌价格,以及对每个帆船变种价格估计精度。这里题目中暗示我们可以利用其他来源进行了解,因此这也提醒我们可以手机其他地区的经济数据以及其他数据进行分析描述,稍后也将为大家分享我收集到的一些数据。
基于给出的数据对价格进行估计。这一方法,我依旧沿用问题浅析中提到的方案,对于这一问题,最为简单的思路就是回归分析,根据题目提出的各种附加特性,以及给出数据的各种指标。进行指标的选择,建立多元回归分析,直接进行价格的预测。这个最简单的一种,可能大家感觉有些简单,其实很多国赛的主模型也是一个简单的多元回归分析,所以正如在美赛开赛之前一位评委教授说没有模型的对错,只有适合与否。大家也可以选择一些高级的价格预测,对应的一些其他预测模型,或者二手车价格评估的专用模型,这就属于进阶模型了,尽力而为即可。
问题二,用你的模型解释地区对上市价格的影响(如果有的话)。讨论是否所有帆船变体的区域效 应是一致的。说明所注意到的任何区域影响的实际和统计意义。
问题二,根据我们建立的模型来解释地区对上市价格的影响。问题二的题设要求我们在问题一的指标选取时,还需要尽可能地考虑地区数据,因此,就需要我们通读题目再去进行问题一指标的选取工作。这里当我们问题一地回归预测模型的话,问题二就可以看作对应的回归分析模型,对单个某一自变量与因变量地关系可以进行讨论。对于进阶模型,即专门的二手价格评估模型,我认为关系的分析讨论自变量因变量的关系也是模型必备的,大家可以参考一下相关的二手车辆价格评估模型,稍后也将为大家收集一些这方面的相关资料。
问题三、讨论你对给定地理区域的建模如何在香港(SAR)市场上发挥作用。从提供的电子表格中选 择一个信息丰富的帆船子集,分为单船体和双体船。从香港(SAR)市场找到该子集的可 比上市价格数据。建模香港(特区)对子集中帆船的每艘帆船价格的区域影响(如果有的话)。 双体帆船和单体帆船的影响是一样的吗?
问题三,问题三的设问不同于问题一二,问题三要求我们单独的对香港这一地理区域进行价格评估,还需要我们判断对于双体帆船和单体帆船的影响是否相同。因此,我们依旧可以沿用问题一二的模型,比如当我们使用回归分析模型时,我们就需要提出地区指标的影响,选中香港的相关其他数据特征进行分析即可。
还有就是数据的注意点,我们可以发现对于整个Y题,他的结果都是相当开放的。我们通常对于这种结果开放式的题目是很喜欢的,原因就是对于这种题目,他的答案一定不是固定值,因此,只要合理就可以。如果保证合理呢,就需要我们大致的读一下文献,对现在这一现状有所了解,只要结果 不是离谱到家评委不能直接将我们的论文判定错误的 。所以,当我们真的真的找不到数据,或者找到的数据不好,代码编程运行出来的结果不理想时,对于这种开放式结果的题目,编造一个数据集,或者编造一个合理的结果是无可厚非的。
问题四、识别并讨论你的团队从数据中得出的任何其他有趣和有信息的推论或结论。
这种比较新颖的题目,细节类的。就需要大家在做题时,随时注意,有趣的结论,信息这种东西对于最后的评审也是很关键的。美赛的评审毕竟是7分制,一旦你的结论足够吸引人,很有可能提升一个档次是有可能的。因此,关于问题四,我的建议是从一开始的数据处理就时刻注意着,多找一些有趣的点,说不准哪一条就打动评委的心。比如,给出的数据最高的成交价格总是出现在某地,最低的价格总是怎样怎样。这个就真的是各显神通。
问题五、为香港(SAR)帆船经纪人准备一到两页的报告。包括一些精心挑选的图表,以帮助经纪 人理解你的结论。
问题五,数模题的常见类型,我们通常叫做非技术性文章,这就需要大家各显神通。题设中,明确的提示大家,可以包括一些图表。因此,大家可以仿照一些项目计划书等东西进行非技术性文章的写作即可。
总结:Y题的整体难度相对于Z题而言,应该是本次美赛春季赛中最难的一道题目。但是这个题目的整体难度,我认为在整个数模领域也仅仅是中等难度,因此大家不要有太大压力,尽力去做就可以。
最后,预祝大家比赛顺利!!!!!!!!!!!!!!
以上是关于2023美赛Y题二手帆船价格--成品论文思路数据代码的主要内容,如果未能解决你的问题,请参考以下文章
2023美赛C题Wordle预测27页中文论文及Python代码详解
2023美赛C题Wordle预测27页中文论文及Python代码详解