从大型语料库生成 n-gram

Posted

技术标签:

【中文标题】从大型语料库生成 n-gram【英文标题】:Generate n-gram from a large corpus 【发布时间】:2021-06-29 02:03:28 【问题描述】:

我正在使用***语料库 (17G) 和 python 语言来获得一个 n-gram 模型。我用过sklearn.feature_extraction.text.CountVectorizer,但它没有任何进度条或详细选项。有推荐的方法吗?

【问题讨论】:

您是否寻求建议如何使用另一个库创建sklearn的CountVectorizer的输出(因为它需要太长时间),或者显示sklearn的CountVectorizer的进度? 你应该展示你的代码并更好地解释你的目标是什么。 (只是不耐烦不确定CountVectorizer 在做什么,还是别的什么?) 我想确保CountVectorizer 不会花费一周时间来完成语料库。 【参考方案1】:

好的。解决方案很简单。编辑源代码,因为代码很容易理解。将 tqdm 添加到 for 循环中。

【讨论】:

以上是关于从大型语料库生成 n-gram的主要内容,如果未能解决你的问题,请参考以下文章

通俗理解n-gram语言模型

理解n-gram及神经网络语言模型

用srilm生成语言模型

自然语言处理NLP

从大型语料库中提取词频列表

机器学习新手项目之N-gram分词