斯坦福 NLP 工具和大量文本
Posted
技术标签:
【中文标题】斯坦福 NLP 工具和大量文本【英文标题】:Stanford NLP tools and lots of text 【发布时间】:2011-07-01 11:05:24 【问题描述】:我目前正在使用 Stanford CoreNLP 工具从文本中提取三元组。我一直在处理相对较小的文本,但我需要让它与更大的文本一起工作。此外,我需要在具有平均内存量的普通机器上进行这项工作。关于如何减少内存负载的任何建议?也许将文本分成更小的部分(但这会搞砸共指......)?
谢谢
【问题讨论】:
依赖共指系统只查找 4 个句子,所以你很安全。如果是大量文本,您可能会丢失一两个参考文献,但这可能是可以接受的,具体取决于您在做什么。 【参考方案1】:蛮力方法:使用堆外内存(使用磁盘空间作为 Java 程序的内存),请参见 thread 或 go here to learn more about BigMemory library。慢,但它可能是你正在寻找的。
【讨论】:
以上是关于斯坦福 NLP 工具和大量文本的主要内容,如果未能解决你的问题,请参考以下文章