斯坦福 NLP 工具和大量文本

Posted 2023-04-01

技术标签:

【中文标题】斯坦福 NLP 工具和大量文本【英文标题】：Stanford NLP tools and lots of text 【发布时间】：2011-07-01 11:05:24 【问题描述】：

我目前正在使用 Stanford CoreNLP 工具从文本中提取三元组。我一直在处理相对较小的文本，但我需要让它与更大的文本一起工作。此外，我需要在具有平均内存量的普通机器上进行这项工作。关于如何减少内存负载的任何建议？也许将文本分成更小的部分（但这会搞砸共指......）？

谢谢

【问题讨论】：

依赖共指系统只查找 4 个句子，所以你很安全。如果是大量文本，您可能会丢失一两个参考文献，但这可能是可以接受的，具体取决于您在做什么。 【参考方案1】：

蛮力方法：使用堆外内存（使用磁盘空间作为 Java 程序的内存），请参见 thread 或 go here to learn more about BigMemory library。慢，但它可能是你正在寻找的。

【讨论】：

以上是关于斯坦福 NLP 工具和大量文本的主要内容，如果未能解决你的问题，请参考以下文章