使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是啥? [关闭]

Posted

技术标签:

【中文标题】使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是啥? [关闭]【英文标题】:What's a good method for extracting text from a PDF using C# or classic ASP (VBScript)? [closed]使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是什么? [关闭] 【发布时间】:2010-09-07 23:50:40 【问题描述】:

有没有一个好的库可以从 PDF 中提取文本?如果需要,我愿意付钱。

使用 C# 或经典 ASP (VBScript) 的东西是理想的,我还需要能够将页面与 PDF 分开。

This question 有一些有趣的东西,尤其是pdftotext,但如果可以的话,我想避免调用外部命令行应用程序。

【问题讨论】:

【参考方案1】:

Docotic.Pdf library 可用于从 PDF 文档中提取格式化或纯文本。

图书馆可以阅读任何版本的 PDF 文档(直到最新发布的标准)。该库还支持提取页面。

示例代码链接:

How to extract text from PDF How to extract PDF pages

免责声明:我为图书馆的供应商工作。

【讨论】:

【参考方案2】:

除了已批准的答案:还有替代的商业解决方案来替代 Adob​​e IFilter 进行文本索引(提供类似的 API,但也提供额外的高级功能):

    Foxit PDF IFilter:与 Adob​​e 的插件相比,提供更快的文本索引。 PDFLib PDF iFilter:包括对损坏的 PDF 文档的支持以及用于运行您自己的查询的额外 API。

如果您正在寻找可用于托管 .NET 应用程序和传统编程语言(如经典 ASP 或 VB6)的单一工具,那么这就是商业 ByteScout PDF Extractor SDK 适合的地方,因为它同时提供 .NET 和 ActiveX/通讯接口。

免责声明:我为 ByteScout 工作

【讨论】:

【参考方案3】:

我们使用Aspose 取得了不错的效果。

【讨论】:

【参考方案4】:

您可以使用 Windows 内置的 IFilter 接口从任何受支持的文件类型中提取文本和属性(作者、标题等)。它是一个 COM 接口,因此您可以使用 .NET 互操作工具。

您还必须从 Adob​​e 下载免费的 PDF IFilter 驱动程序。

【讨论】:

【参考方案5】:

这是一个很好的列表: Open Source Libs for PDF/C#

其中大部分都用于创建 PDF,但它们也应该具有阅读功能。

还有这个:iText

我以前只玩过 iText。没什么大不了的。

【讨论】:

以上是关于使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是啥? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

按钮单击 asp 以删除 SQL 服务器中的行 - 经典 asp 和 vbscript

Dreamweaver 回发与经典 asp

使用 FirstData GGe4 进行 ASP 经典编程

Windows功能更新1803下的VBSCRIPT速度很慢

在 vbscript 中处理时区

C#在win7系统 iis部署asp.net导出excel功能报错