是否有任何 Bigdata 工具来处理 pdf 文档

Posted

技术标签:

【中文标题】是否有任何 Bigdata 工具来处理 pdf 文档【英文标题】:Is there any Bigdata tool to process pdf document 【发布时间】:2013-08-27 10:08:53 【问题描述】:

我必须处理 PDF 文档。 Bigdata 中是否有任何工具可以处理我的 pdf 文档(半结构化数据)? 例如.. 如果我的 PDF 文档包含任何主题,如摘要或操作,我必须在没有任何页脚的情况下检索这些段落。 现在我正在使用 pdfBox 和 java API 来提取我的 pdf 文档,但是是否有任何大数据工具可用于进行相同的提取??

【问题讨论】:

【参考方案1】:

我不知道有什么工具可以做你想做的事,但如果你可以设置 Hadoop 集群(或使用 Amazon AWS 服务),那么你可以轻松地使用 Hadoop 流式传输 PDF 文档通过用户定义的程序(你在 java 中应该可以正常工作)。

this earlier SO question 中有一个很好的示例,说明了如何将 Hadoop 流与自定义 Java 程序一起使用。

【讨论】:

以上是关于是否有任何 Bigdata 工具来处理 pdf 文档的主要内容,如果未能解决你的问题,请参考以下文章

BigData/Hadoop 项目的典型流程?

TYPO3 图像处理也适用于 PDF 文件?

是否有任何工具可以帮助处理复杂的“如果”逻辑?

bigdata-01-应用

用于查看 PDF 坐标的免费工具 [关闭]

pdf文件怎么填写