使用适度资源对谷歌图书 n-gram 数据集进行处理的最可行选项是啥？

Posted 2023-04-17

技术标签:

【中文标题】使用适度资源对谷歌图书 n-gram 数据集进行处理的最可行选项是啥？【英文标题】：What are the most feasible options to do processing on google books n-gram dataset using modest resources?使用适度资源对谷歌图书 n-gram 数据集进行处理的最可行选项是什么？ 【发布时间】：2013-03-06 14:09:09 【问题描述】：

我需要从谷歌书籍的 n-gram 语料库中为每个目标词计算大约 10,000 个目标词和几百个上下文词的词共现统计数据

以下是完整数据集的链接：

Google Ngram Viewer

显然，数据库大约为 2.2TB，包含数千亿行。为了计算单词共现统计，我需要为每对可能的目标词和上下文词处理整个数据。我目前正在考虑将 Hadoop 与 Hive 一起使用来批量处理数据。考虑到这是一个学期时间限制和计算资源有限的学术项目，还有哪些其他可行的选择。

请注意，不需要实时查询数据

【问题讨论】：

某种形式的 MapReduce 似乎是正确的方法。 lintool.github.com/MapReduceAlgorithms/MapReduce-book-final.pdf 应该很有用 【参考方案1】：

Hive 有一个用于处理 ngram 的内置 UDF https://cwiki.apache.org/Hive/statisticsanddatamining.html#StatisticsAndDataMining-ngrams%2528%2529andcontextngrams%2528%2529%253ANgramfrequencyestimation

【讨论】：

我想这将涉及编写大量查询

以上是关于使用适度资源对谷歌图书 n-gram 数据集进行处理的最可行选项是啥？的主要内容，如果未能解决你的问题，请参考以下文章

如何对谷歌应用程序脚本进行单元测试？

如何在 PHP 中对谷歌地理编码 api 进行批量纬度/经度查找？

Flutter - 使用 StreamBuilder 提供对谷歌地图的实时更新

如何对谷歌地图多边形中的点进行排序以使线不交叉？

用arcgis10.2对谷歌影像进行投影转换操作用的是啥坐标系

对谷歌字体使用@import 不适用于 Internet Explorer