是否有任何 Bigdata 工具来处理 pdf 文档

Posted 2023-04-18

技术标签:

【中文标题】是否有任何 Bigdata 工具来处理 pdf 文档【英文标题】：Is there any Bigdata tool to process pdf document 【发布时间】：2013-08-27 10:08:53 【问题描述】：

我必须处理 PDF 文档。 Bigdata 中是否有任何工具可以处理我的 pdf 文档（半结构化数据）？例如.. 如果我的 PDF 文档包含任何主题，如摘要或操作，我必须在没有任何页脚的情况下检索这些段落。现在我正在使用 pdfBox 和 java API 来提取我的 pdf 文档，但是是否有任何大数据工具可用于进行相同的提取？？

【问题讨论】：

【参考方案1】：

我不知道有什么工具可以做你想做的事，但如果你可以设置 Hadoop 集群（或使用 Amazon AWS 服务），那么你可以轻松地使用 Hadoop 流式传输 PDF 文档通过用户定义的程序（你在 java 中应该可以正常工作）。

this earlier SO question 中有一个很好的示例，说明了如何将 Hadoop 流与自定义 Java 程序一起使用。

【讨论】：

以上是关于是否有任何 Bigdata 工具来处理 pdf 文档的主要内容，如果未能解决你的问题，请参考以下文章

BigData/Hadoop 项目的典型流程？

TYPO3 图像处理也适用于 PDF 文件？

是否有任何工具可以帮助处理复杂的“如果”逻辑？

bigdata-01-应用

用于查看 PDF 坐标的免费工具 [关闭]

pdf文件怎么填写