Camelot-py 没有检测到有两行的表
Posted
技术标签:
【中文标题】Camelot-py 没有检测到有两行的表【英文标题】:Camelot-py not detecting tables with two rows 【发布时间】:2021-12-23 14:56:52 【问题描述】:使用 Camelot-py 从 .PDF 中抓取表格数据,它没有检测到 2/1 行的表格。
我正在阅读的 PDF:
用于读取表格的代码:
abc = camelot.read_pdf('IR-O-U-0436.pdf', pages="all")
我得到的输出:
从图片中,您可以看到赞助研究表正在 abc[15] 中读取,咨询项目详细信息表的第二部分正在 abc[16] 中读取,但咨询项目详细信息表的第一部分卡米洛特错过了。
任何见解将不胜感激。
【问题讨论】:
如需帮助,请提供PDF原件。 【参考方案1】:我在一些 pdf 文件中有类似的表格,但 camelot 没有检测到这些表格。但是在将参数“line_scale”传递给 read_pdf 函数后,我也能够检测到这些表。 您必须获取“line_scale”参数的特定值,这将为您提供所有表格,而不管行号如何。 对我来说
line_scale = 35
工作正常。你可以自己查。
【讨论】:
以上是关于Camelot-py 没有检测到有两行的表的主要内容,如果未能解决你的问题,请参考以下文章