从简历中做出预测
Posted
技术标签:
【中文标题】从简历中做出预测【英文标题】:Making predictions from a CV 【发布时间】:2011-04-14 04:47:16 【问题描述】:我有一个包含许多简历的数据库,包括每个人的性别、年龄、地址、教育年限和许多其他参数的结构化数据。
对于大约 10% 的样本,我还有关于他们在某个时间点采取的特定行动的额外数据。例如,Jane 于 1998 年 7 月获得房屋贷款,或者 John 于 2007 年 1 月开始飞行员培训并于 2007 年 12 月获得执照。
我需要一个算法,它可以为每个动作给出在未来时间增量中每个人发生的概率。例如,比尔在 2011 年获得住房贷款的机会是 2%,在 2012 年是 3.5%,等等。
我应该如何处理这个问题?回归分析?支持向量机?神经网络?还有什么?
是否有一些标准工具/库可以通过明显的自定义来使用?
【问题讨论】:
不要自己尝试这样做。雇用受过良好统计培训的人。 称为水晶球算法。 我想这也很大程度上取决于您有多少记录(以及这些记录的代表性),您实际上可以推断出有用的预测。 你应该在这里问stats.stackexchange.com。但这是一个非常广泛的话题。 删除了“线性回归”标签。 OLS 绝对不是要走的路。 【参考方案1】:我认为,假设 Y 发生了,X 发生的概率正好来自贝叶斯推理。
【讨论】:
据我了解,没有 Y 的问题。只有 X 发生概率的问题。 不一定是贝叶斯,也不一定是常客。但是,是的,随机模型确实出现了。 :)【参考方案2】:Lou 是对的,“贝叶斯推理”就是这种情况。
解决这个问题的最佳工具/库是 R 统计编程语言 (r-project.org)。
看看 R 中的贝叶斯推理库: http://cran.r-project.org/web/views/Bayesian.html
“10% 的样本”中有多少人?如果少于 100 人左右,我担心分析的结果不会很重要。如果是 1000 人或更多人,结果会非常好(经验法则)。
我会先将数据导出到 R(r-project)并进行必要的数据清理。然后找一个熟悉R和高级统计的人,他很快就能解决这个问题。或者自己尝试一下,但 R 在开始时需要一些时间。
【讨论】:
同意:雇人。即使一个人不使用贝叶斯方法,而是使用 R 的其他推理工具包(例如机器学习),最好知道你在做什么。没有水晶球。【参考方案3】:关于工具/库的选择,我建议你试试Weka。它是一个用于试验数据挖掘和机器学习的开源工具。 Weka 有多种工具用于读取、处理和过滤您的数据,以及预测和分类工具。
但是,您必须在上述领域有扎实的基础才能争取有用的结果。
【讨论】:
以上是关于从简历中做出预测的主要内容,如果未能解决你的问题,请参考以下文章