如何在 Ruby 中使用“PDF-Reader”gem 获取文本的位置
Posted
技术标签:
【中文标题】如何在 Ruby 中使用“PDF-Reader”gem 获取文本的位置【英文标题】:How to get the position of text using 'PDF-Reader' gem in Ruby 【发布时间】:2015-10-01 16:56:00 【问题描述】:我是 Ruby 新手,我们正在使用 Ruby Selenium 框架来自动化 PDF 验证测试。 我想验证 PDF 的内容,比如文本,并获取文本的位置。除此之外,我还需要在给定位置获取文本。
【问题讨论】:
欢迎来到 Stack Overflow!你尝试过什么,结果如何?就像你在学校做的那样……请展示你的作品。 :) 这是在 SO 上回答问题的过程的一部分。它对您很有帮助,因为它迫使您调查自己的问题并仔细考虑。它还向读者证明你做了功课,并做出了合理的尝试来回答你自己的问题。第三,它可以帮助读者发现和诊断问题,从而为您提供更好的答案,减少我们浪费的时间。 【参考方案1】:可能是这样的
require 'pdf-reader'
require 'open-uri'
reader = PDF::Reader.new(open("SAMPLE_URL")) # my resume pdf
page = reader.pages.first
lines = page.split("\n")
text_match_line_numbers = [0...lines.length].select do |i|
lines[i] .include? "text"
end
查看他们的文档here,有更多用于导航 PDF 页面的高级选项。
【讨论】:
以上是关于如何在 Ruby 中使用“PDF-Reader”gem 获取文本的位置的主要内容,如果未能解决你的问题,请参考以下文章
ruby 使用pdf-reader gem从PDF中提取注释