从简历中做出预测

Posted 2023-03-12

技术标签:

【中文标题】从简历中做出预测【英文标题】：Making predictions from a CV 【发布时间】：2011-04-14 04:47:16 【问题描述】：

我有一个包含许多简历的数据库，包括每个人的性别、年龄、地址、教育年限和许多其他参数的结构化数据。

对于大约 10% 的样本，我还有关于他们在某个时间点采取的特定行动的额外数据。例如，Jane 于 1998 年 7 月获得房屋贷款，或者 John 于 2007 年 1 月开始飞行员培训并于 2007 年 12 月获得执照。

我需要一个算法，它可以为每个动作给出在未来时间增量中每个人发生的概率。例如，比尔在 2011 年获得住房贷款的机会是 2%，在 2012 年是 3.5%，等等。

我应该如何处理这个问题？回归分析？支持向量机？神经网络？还有什么？

是否有一些标准工具/库可以通过明显的自定义来使用？

【问题讨论】：

不要自己尝试这样做。雇用受过良好统计培训的人。称为水晶球算法。我想这也很大程度上取决于您有多少记录（以及这些记录的代表性），您实际上可以推断出有用的预测。你应该在这里问stats.stackexchange.com。但这是一个非常广泛的话题。删除了“线性回归”标签。 OLS 绝对不是要走的路。 【参考方案1】：

我认为，假设 Y 发生了，X 发生的概率正好来自贝叶斯推理。

【讨论】：

据我了解，没有 Y 的问题。只有 X 发生概率的问题。不一定是贝叶斯，也不一定是常客。但是，是的，随机模型确实出现了。 :)【参考方案2】：

Lou 是对的，“贝叶斯推理”就是这种情况。

解决这个问题的最佳工具/库是 R 统计编程语言 (r-project.org)。

看看 R 中的贝叶斯推理库： http://cran.r-project.org/web/views/Bayesian.html

“10% 的样本”中有多少人？如果少于 100 人左右，我担心分析的结果不会很重要。如果是 1000 人或更多人，结果会非常好（经验法则）。

我会先将数据导出到 R（r-project）并进行必要的数据清理。然后找一个熟悉R和高级统计的人，他很快就能解决这个问题。或者自己尝试一下，但 R 在开始时需要一些时间。

【讨论】：

同意：雇人。即使一个人不使用贝叶斯方法，而是使用 R 的其他推理工具包（例如机器学习），最好知道你在做什么。没有水晶球。【参考方案3】：

关于工具/库的选择，我建议你试试Weka。它是一个用于试验数据挖掘和机器学习的开源工具。 Weka 有多种工具用于读取、处理和过滤您的数据，以及预测和分类工具。

但是，您必须在上述领域有扎实的基础才能争取有用的结果。