NLP项目数据库[关闭]

Posted

技术标签:

【中文标题】NLP项目数据库[关闭]【英文标题】:Database for NLP project [closed] 【发布时间】:2013-06-01 11:31:12 【问题描述】:

有人可以建议哪种数据库更适合存储文本信息,例如用 python 编写的 NLP 项目中使用的词性序列、依赖关系、句子。现在这些信息存储在文件中,每次都需要对其进行解析,以提取提到的块,这些块用作下一个处理阶段的输入。 考虑的选项 - MongoDB、Cassandra 和 mysql。 NoSQL 数据库在这种类型的应用程序中是否更好。 谢谢。

【问题讨论】:

【参考方案1】:

这实际上取决于您存储的具体内容以及您将对这些数据执行哪些操作。

SQL 与 NoSQL 是一个非常基本的决定,没有人可以在这里给你一个好的建议。如果您的数据非常适合关系模型,那么 SQL(PostgreSQL 或 MySQL)是您的选择。如果您的数据更像文档,请使用 MongoDB。

也就是说,最近我做了一个搜索引擎。我们必须存储索引页面(原始文本)、相同的文本但已标记化以及一些额外的元数据。 MongoDB 的表现非常好。

【讨论】:

以上是关于NLP项目数据库[关闭]的主要内容,如果未能解决你的问题,请参考以下文章

CoffeeScript或JavaScript中的基本NLP - Punkt tokenizaton,简单训练的贝叶斯模型 - 从哪里开始? [关闭]

数据科学项目02:NLP应用之垃圾短信/邮件检测(端到端的项目)

“公共管理自然语言处理”(PA-NLP)项目正式启动

NLP/机器学习文本比较[关闭]

如何在 URDU 语言文本上进行 NLP? [关闭]

NLP 实战 | 整体设计之数据集/模型管理