机器学习 | 泰坦尼克号数据集

Posted AI算法攻城狮

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习 | 泰坦尼克号数据集相关的知识,希望对你有一定的参考价值。

问题描述


RMS泰坦尼克号的沉没是历史上最臭名昭着的沉船之一。1912年4月15日,在首次航行期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。这场轰动的悲剧震撼了国际社会,并导致了更好的船舶安全条例。

海难导致生命损失的原因之一是没有足够的救生艇给乘客和机组人员。虽然幸存下来的运气有一些因素,但一些人比其他人更有可能生存,比如妇女,儿童和上层阶级。

在这个挑战中,我们要求你完成对哪些人可能生存的分析。特别是,我们要求您运用机器学习的工具来预测哪些乘客幸免于难。

数据集描述


题目提供的训练数据集包含11个特征,分别是:

Pclass:乘客所持票类,有三种值(lower,middle,upper)

Survived:0代表死亡,1代表存活

Name:乘客姓名

Sex:乘客性别

Age:乘客年龄(有缺失)

SibSp:乘客兄弟姐妹/配偶的个数(整数值)

Parch:乘客父母/孩子的个数(整数值)

Ticket:票号(字符串)

Fare:乘客所持票的价格(浮点数,0-500不等)

Cabin:乘客所在船舱(有缺失)

Embark:乘客登船港口:S、C、Q(有缺失)

uid pclass

以上是关于机器学习 | 泰坦尼克号数据集的主要内容,如果未能解决你的问题,请参考以下文章

Python机器学习:泰坦尼克号获救预测一

机器学习之路: python 实践 提升树 XGBoost 分类器

Kaggle实战入门:泰坦尼克号生还预测(进阶版)

Kaggle经典测试,泰坦尼克号的生存预测,机器学习实验----02

Kaggle经典测试,泰坦尼克号的生存预测,机器学习实验----02

机器学习第一步——用逻辑回归及随机森林实现泰坦尼克号的生存预测