使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是啥? [关闭]
Posted
技术标签:
【中文标题】使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是啥? [关闭]【英文标题】:What's a good method for extracting text from a PDF using C# or classic ASP (VBScript)? [closed]使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是什么? [关闭] 【发布时间】:2010-09-07 23:50:40 【问题描述】:有没有一个好的库可以从 PDF 中提取文本?如果需要,我愿意付钱。
使用 C# 或经典 ASP (VBScript) 的东西是理想的,我还需要能够将页面与 PDF 分开。
This question 有一些有趣的东西,尤其是pdftotext,但如果可以的话,我想避免调用外部命令行应用程序。
【问题讨论】:
【参考方案1】:Docotic.Pdf library 可用于从 PDF 文档中提取格式化或纯文本。
图书馆可以阅读任何版本的 PDF 文档(直到最新发布的标准)。该库还支持提取页面。
示例代码链接:
How to extract text from PDF How to extract PDF pages免责声明:我为图书馆的供应商工作。
【讨论】:
【参考方案2】:除了已批准的答案:还有替代的商业解决方案来替代 Adobe IFilter 进行文本索引(提供类似的 API,但也提供额外的高级功能):
-
Foxit PDF IFilter:与 Adobe 的插件相比,提供更快的文本索引。
PDFLib PDF iFilter:包括对损坏的 PDF 文档的支持以及用于运行您自己的查询的额外 API。
如果您正在寻找可用于托管 .NET 应用程序和传统编程语言(如经典 ASP 或 VB6)的单一工具,那么这就是商业 ByteScout PDF Extractor SDK 适合的地方,因为它同时提供 .NET 和 ActiveX/通讯接口。
免责声明:我为 ByteScout 工作
【讨论】:
【参考方案3】:我们使用Aspose 取得了不错的效果。
【讨论】:
【参考方案4】:您可以使用 Windows 内置的 IFilter 接口从任何受支持的文件类型中提取文本和属性(作者、标题等)。它是一个 COM 接口,因此您可以使用 .NET 互操作工具。
您还必须从 Adobe 下载免费的 PDF IFilter 驱动程序。
【讨论】:
【参考方案5】:这是一个很好的列表: Open Source Libs for PDF/C#
其中大部分都用于创建 PDF,但它们也应该具有阅读功能。
还有这个:iText
我以前只玩过 iText。没什么大不了的。
【讨论】:
以上是关于使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是啥? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章