如何从pdf文件的表格中获取文本?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何从pdf文件的表格中获取文本?相关的知识,希望对你有一定的参考价值。
我想从表格中获取PDF文件中的文字吗?
我无法获得表格中的单元格。我尝试运行Leadtools的示例,但是它无法自动检测单元格。
https://www.leadtools.com/help/leadtools/v20/dh/fo/iocrtablezonemanager.html
您能给我建议吗?谢谢大家
答案
在类似于您发布的图像的表中,应该可以使用IOcrPage.TableZoneManager.AutoDetectCells()方法找到单元格。当前版本的LEADTOOLS附带的OcrMultiEngineDemo项目中使用了此方法。
这里是测试方法:
- 运行OCR多引擎演示。
- 选择OmniPage OCR引擎
- 打开包含表格的图像或PDF文件。
- 在桌子周围画一个区域。
- 从OCR->区域菜单中选择“更新区域…”。
- 在“更新区域”对话框中,单击“检测单元格”,如下图所示。
如果这不能给您期望的结果,请将您要测试的实际文件发送到support@leadtools.com,并说明您如何进行精确测试。
以上是关于如何从pdf文件的表格中获取文本?的主要内容,如果未能解决你的问题,请参考以下文章
从 pdf 中提取表格(到 excel),pref。带 vba