Camelot-py 没有检测到有两行的表

Posted

技术标签:

【中文标题】Camelot-py 没有检测到有两行的表【英文标题】:Camelot-py not detecting tables with two rows 【发布时间】:2021-12-23 14:56:52 【问题描述】:

使用 Camelot-py 从 .PDF 中抓取表格数据,它没有检测到 2/1 行的表格。

我正在阅读的 PDF:

用于读取表格的代码:

abc = camelot.read_pdf('IR-O-U-0436.pdf', pages="all")

我得到的输出:

从图片中,您可以看到赞助研究表正在 abc[15] 中读取,咨询项目详细信息表的第二部分正在 abc[16] 中读取,但咨询项目详细信息表的第一部分卡米洛特错过了。

任何见解将不胜感激。

【问题讨论】:

如需帮助,请提供PDF原件。 【参考方案1】:

我在一些 pdf 文件中有类似的表格,但 camelot 没有检测到这些表格。但是在将参数“line_scale”传递给 read_pdf 函数后,我也能够检测到这些表。 您必须获取“line_scale”参数的特定值,这将为您提供所有表格,而不管行号如何。 对我来说

line_scale = 35

工作正常。你可以自己查。

【讨论】:

以上是关于Camelot-py 没有检测到有两行的表的主要内容,如果未能解决你的问题,请参考以下文章

具有两个标题行的表排序器

标题中有两行的Android工具栏?

Angular:每个 tr 元素内有两行的 HTML 表

Ruby - 遍历数组并创建一个三列 x 行的表

检查mysql中的表中是不是有两行具有相同的元素

如何在我的表中有两行跨越多列,同时仍与引导程序兼容?