命名实体识别算法

Posted 2023-03-25

技术标签:

【中文标题】命名实体识别算法【英文标题】：Algorithms for named entity recognition 【发布时间】：2010-11-04 20:15:25 【问题描述】：

我想使用命名实体识别 (NER) 来为数据库中的文本找到足够的标签。

我知道有一篇关于此的 Wikipedia 文章以及许多其他描述 NER 的页面，我希望从您那里听到有关此主题的一些信息：

您对各种算法有什么体验？您会推荐哪种算法？哪种算法最容易实现（php/Python）？算法如何工作？是否需要手动培训？

例子：

“去年，我在伦敦见到了巴拉克奥巴马。” => 标签：伦敦，巴拉克奥巴马

我希望你能帮助我。非常感谢您！

【问题讨论】：

【参考方案1】：

如果您打算使用 python，请先查看http://www.nltk.org/，尽管据我所知代码不是“工业实力”，但它会让您入门。

查看http://nltk.googlecode.com/svn/trunk/doc/book/ch07.html 的第 7.5 节，但要了解算法，您可能需要阅读大量书籍。

还可以查看http://nlp.stanford.edu/software/CRF-NER.shtml。它是用java完成的，

NER 不是一个简单的主题，可能没有人会告诉你“这是最好的算法”，他们中的大多数都有自己的优缺点。

我的 0.05 美元。

干杯，

【讨论】：

NLTK 听起来不错，但它需要通过 shell 安装，不是吗？我无法通过 shell 安装任何东西。通过shell安装是什么意思？查看nltk.org/download，只要将 nltk 添加到 PYTHONPATH 就足够了。我与 Standord 的 NER 作斗争（如果我找不到其他东西，可能不得不返回它）。这有点乱。如果可能的话，我会避免它。我会说斯坦福比 nltk 有更好的结果，至少在我的情况下。【参考方案2】：

这取决于你是否想要：

了解 NER：从NLTK 和关联的book 开始是一个很好的起点。

实施最佳解决方案：在这里，您将需要寻找最先进的技术。查看TREC 中的出版物。更专业的会议是Biocreative（NER 应用于狭窄领域的一个很好的例子）。

实现最简单的解决方案：在这种情况下，您基本上只是想做简单的标记，然后取出标记为名词的单词。你可以使用来自 nltk 的标注器，或者甚至只是在 PyWordnet 中查找每个单词并使用最常见的词义对其进行标注。

大多数算法都需要某种形式的训练，并且在针对代表您将要求它标记的内容的内容进行训练时表现最佳。

【讨论】：

我认为即使是最简单的解决方案也需要进行一些 n-gram 分析来尝试查找多词实体。 osteele.com/projects/pywordnet 说“这是 PyWordNet 的旧版本。PyWordNet 在 2006 年被贡献给 NLTK 项目。” @Triptych：你会发现很多“我爱”和“其中”的 n-gram【参考方案3】：

有一些工具和 API。

有一个构建在 DBPedia 之上的工具，称为 DBPedia Spotlight (https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki)。您可以使用他们的 REST 接口或下载并安装您自己的服务器。最棒的是它将实体映射到它们的 DBPedia 存在，这意味着您可以提取有趣的链接数据。

AlchemyAPI (www.alchemyapi.com) 有一个 API 也可以通过 REST 执行此操作，并且他们使用免费增值模式。

我认为大多数技术都依赖于一点 NLP 来查找实体，然后使用 Wikipedia、DBPedia、Freebase 等基础数据库来进行消歧和相关性（例如，尝试确定提及 Apple 的文章是否是关于水果或公司...如果文章包括与苹果公司相关的其他实体，我们会选择公司。

【讨论】：

【参考方案4】：

您可能想尝试 Yahoo Research 最新的快速实体链接系统 - 该论文还更新了对使用基于神经网络的嵌入的 NER 新方法的参考：

https://research.yahoo.com/publications/8810/lightweight-multilingual-entity-extraction-and-linking

【讨论】：

【参考方案5】：

可以使用人工神经网络来执行命名实体识别。

这是在 TensorFlow (python) 中执行命名实体识别的双向 LSTM + CRF 网络的实现：https://github.com/Franck-Dernoncourt/NeuroNER（适用于 Linux/Mac/Windows）。

它在几个命名实体识别数据集上提供了最先进的结果（或接近它）。正如 Ale 所提到的，每个命名实体识别算法都有自己的缺点和优点。

ANN 架构：

在 TensorBoard 中查看：

【讨论】：

【参考方案6】：

我不太了解 NER，但从那个例子来看，你可以创建一个算法来搜索单词中的大写字母或类似的东西。为此，如果您的想法很小，我会推荐正则表达式作为最容易实施的解决方案。

另一种选择是将文本与数据库进行比较，您将匹配预先识别为感兴趣标签的字符串。

我的 5 美分。

【讨论】：

这不起作用。首先，它只适用于正确英文文本。除此之外，如果不区分大小写，它也不起作用。是的...我 wuz n lunden n i sore barrack ohbama 这是更糟糕的建议。 NER是一个非常广泛的领域，并且已经有很多相同的研究。我建议使用 Stanford-NER 系统。

以上是关于命名实体识别算法的主要内容，如果未能解决你的问题，请参考以下文章