使用 ruby​​ pdf-reader 解析 pdf

Posted

技术标签:

【中文标题】使用 ruby​​ pdf-reader 解析 pdf【英文标题】:parse pdf using ruby pdf-reader 【发布时间】:2019-07-12 06:34:16 【问题描述】:

我正在尝试使用 pdf-reader gem 解析 pdf。我已经探索了一些方法和特定pdf页面的显示方法显示正确的数据(即使表格列有不止一行,它也显示特定列的组合)但它给出的返回值为nil所以有什么方法可以获取此方法显示的值?我也尝试过使用文本方法,但问题是,在 pdf 中,我有类似结构的表格,一个表格列可以有不止一行,由于这个原因,文本方法没有按顺序显示值,所以它首先显示排然后是第二排等等。因此,判断哪个特定列有多于一行变得不难了。有什么办法可以解决这个问题?

reader = PDF::Reader.new(io)
reader.page(1).display #display methods print nice pdf data but return nil
reader.page(1).text #display pdf text but does not show value in order (in case of table)

【问题讨论】:

【参考方案1】:

试试下面的代码怎么样

reader = PDF::Reader.new(io)
puts reader.page(1).display #display methods print nice pdf data but return nil
puts reader.page(1).text #display pdf text but does not show value in order (in case of table)

displaymethod 只打印不返回。

如果您想查看任何结果。输入putsp并尝试

【讨论】:

以上是关于使用 ruby​​ pdf-reader 解析 pdf的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Ruby 中使用“PDF-Reader”gem 获取文本的位置

ruby 使用pdf-reader gem从PDF中提取注释

如何在 Ruby 中解析 pdf

Ruby pdf阅读器出现未知字形宽度错误

PDF 阅读器 ruby​​ gem 风景页面

从 ruby​​ 中的 pdf 文件中获取元数据