如何从pdf文件的表格中获取文本?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何从pdf文件的表格中获取文本?相关的知识,希望对你有一定的参考价值。

我想从表格中获取PDF文件中的文字吗?“在此处输入图像描述”

我无法获得表格中的单元格。我尝试运行Leadtools的示例,但是它无法自动检测单元格。

https://www.leadtools.com/help/leadtools/v20/dh/fo/iocrtablezonemanager.html

您能给我建议吗?谢谢大家

答案

在类似于您发布的图像的表中,应该可以使用IOcrPage.TableZoneManager.AutoDetectCells()方法找到单元格。当前版本的LEADTOOLS附带的OcrMultiEngineDemo项目中使用了此方法。

这里是测试方法:

  1. 运行OCR多引擎演示。
  2. 选择OmniPage OCR引擎
  3. 打开包含表格的图像或PDF文件。
  4. 在桌子周围画一个区域。
  5. 从OCR->区域菜单中选择“更新区域…”。
  6. 在“更新区域”对话框中,单击“检测单元格”,如下图所示。

Table Cells

如果这不能给您期望的结果,请将您要测试的实际文件发送到support@leadtools.com,并说明您如何进行精确测试。

以上是关于如何从pdf文件的表格中获取文本?的主要内容,如果未能解决你的问题,请参考以下文章

如何从 Android 中的印地语 PDF 文件中提取文本

如何从 PDF 文件中提取文本和文本坐标?

从 pdf 中提取表格(到 excel),pref。带 vba

如何使用 python 将给定的 PDF 提取到文本和表格并将数据存储在 .csv 文件中?

如何从Java中提取PDF文件中的表格数据

如何使用 python 从 PDF 表单中读取数据