是否有任何 Bigdata 工具来处理 pdf 文档
Posted
技术标签:
【中文标题】是否有任何 Bigdata 工具来处理 pdf 文档【英文标题】:Is there any Bigdata tool to process pdf document 【发布时间】:2013-08-27 10:08:53 【问题描述】:我必须处理 PDF 文档。 Bigdata 中是否有任何工具可以处理我的 pdf 文档(半结构化数据)? 例如.. 如果我的 PDF 文档包含任何主题,如摘要或操作,我必须在没有任何页脚的情况下检索这些段落。 现在我正在使用 pdfBox 和 java API 来提取我的 pdf 文档,但是是否有任何大数据工具可用于进行相同的提取??
【问题讨论】:
【参考方案1】:我不知道有什么工具可以做你想做的事,但如果你可以设置 Hadoop 集群(或使用 Amazon AWS 服务),那么你可以轻松地使用 Hadoop 流式传输 PDF 文档通过用户定义的程序(你在 java 中应该可以正常工作)。
this earlier SO question 中有一个很好的示例,说明了如何将 Hadoop 流与自定义 Java 程序一起使用。
【讨论】:
以上是关于是否有任何 Bigdata 工具来处理 pdf 文档的主要内容,如果未能解决你的问题,请参考以下文章