文本挖掘教程：如何从一份简历中快速找到有用信息

Posted 2021-04-16 论智

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文本挖掘教程：如何从一份简历中快速找到有用信息相关的知识，希望对你有一定的参考价值。

来源：KDnuggets

编译：Bing

编者按：如果你曾负责过招聘，筛查简历一定让你又爱又恨，能看到一份层次鲜明重点突出的简历简直是一股清流。面对格式多样的简历，如何能一眼看到重点呢？作者Yogesh H. Kulkarni就设计了一款能挖掘简历中重要信息文本的框架RegEx。以下是论智的编译。

摘要

本文展示了一种用于从文本简历中挖掘相关信息的框架。虽然这里只有一份简历作为案例，但是今后，框架不仅可以进一步扩展到不同简历格式上，还可以用到例如决策、合同、药物说明书等文本上。

介绍

世界上大多数非结构化的数据都在文本形式中。为了理解这一点，我们要么花费大量精力处理它，要么你运用一些自动手段提取出有用信息。面对大量、风格各异的文本数据，还是需要用文本挖掘技术提取相关信息，将结构混乱的数据转化成结构清晰的形式，之后才能进一步进行处理、分析、可视化。

这篇文章的关注重点比较特殊，是候选人的个人档案或简历。我们都知道，HR收到的简历通常有各种格式的（txt、doc、pdf等等），而且内容和版面设计也是五花八门，想从这些文件中筛选出自己认为有用的信息是一项非常有挑战性的工作。即使如此，我们可能还不能完全提取出有用的信息，因为格式实在是多种多样，所以我们可以先从简单的步骤开始，至少从我们已知的形式中提取出有效信息。

简单地说，这里有两种方法：基于语言学的方法和基于机器学习的方法。在语言学的方法中，为了寻找关键信息用的是模式搜索的方法，而在机器学习中，提取信息时用到的是监督或非监督的方法。在这篇文章中用到的RegEx术语基于语言学的模式匹配方法。

框架

想从简历中提取目标对象的一种简单方法就是在编码程序中，为每个对象写一个模式匹配的逻辑。如果模式有任何改变，或者如果有新的对象或模式出现，你需要改变编码程序。这使得框架的维护变得非常麻烦，复杂程度不断提高。为了解决这个问题，我们的框架提出了分离逻辑分析和目标种类的方法，下面会详细进行讲解。目标对象和它们的RegEx模式在配置文件中都有详细的记录，文件同时还记录了为每种对象提取方法的类别。这种分离方法的优点是，它不仅可以重复使用，保持稳定，而且还可以用到其他领域，例如合同文件、法律文件或者医疗报告等等。