斯坦福 NLP 工具和大量文本

Posted

技术标签:

【中文标题】斯坦福 NLP 工具和大量文本【英文标题】:Stanford NLP tools and lots of text 【发布时间】:2011-07-01 11:05:24 【问题描述】:

我目前正在使用 Stanford CoreNLP 工具从文本中提取三元组。我一直在处理相对较小的文本,但我需要让它与更大的文本一起工作。此外,我需要在具有平均内存量的普通机器上进行这项工作。关于如何减少内存负载的任何建议?也许将文本分成更小的部分(但这会搞砸共指......)?

谢谢

【问题讨论】:

依赖共指系统只查找 4 个句子,所以你很安全。如果是大量文本,您可能会丢失一两个参考文献,但这可能是可以接受的,具体取决于您在做什么。 【参考方案1】:

蛮力方法:使用堆外内存(使用磁盘空间作为 Java 程序的内存),请参见 thread 或 go here to learn more about BigMemory library。慢,但它可能是你正在寻找的。

【讨论】:

以上是关于斯坦福 NLP 工具和大量文本的主要内容,如果未能解决你的问题,请参考以下文章

限时秒推:斯坦福NLP(自然语言处理)RA多名!!!

斯坦福的nlp学习

NLP干货!Python NLTK结合stanford NLP工具包进行文本处理

NLP在线演示

斯坦福NLP课程 | 第6讲

斯坦福NLP课程 | 第10讲