按坐标提取PDF文本

Posted 2021-04-14

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了按坐标提取PDF文本相关的知识，希望对你有一定的参考价值。

我想知道Microsoft .NET中是否有一些PDF库可以通过给出坐标来提取文本。

例如（伪代码）：

PdfReader reader = new PdfReader();
reader.Load("file.pdf");

// Top, bottom, left, right in pixels or any other unit
string wholeText = reader.GetText(100, 150, 20, 50);

我试图使用PDFBox for .NET（那个在IKVM之上工作）没有运气，这似乎是非常过时和无证的。

也许任何人都有使用PDFBox，iTextSharp或任何其他开源库的良好样本，他/她可以给我一个提示。

先感谢您。

答案

好的，谢谢你的努力。

我在IKVM编译的基础上使用Apache的PDFBox得到它，这是最终的代码：

PDDocument doc = PDDocument.load(@"c:invoice.pdf");

PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.addRegion("testRegion", new java.awt.Rectangle(0, 10, 100, 100));
stripper.extractRegions((PDPage)doc.getDocumentCatalog().getAllPages().get(0));

string text = stripper.getTextForRegion("testRegion");

它就像一个魅力。

无论如何，谢谢你，我希望我自己的答案会帮助别人。如果您需要更多详细信息，请在此处注释，我将更新此答案。

另一答案

它不是开源的，但希望这有助于你（以及其他任何使用ABCPDF的人！）

我今天早些时候通过循环遍历PDF中的可用字段来完成此操作。这意味着您正在使用的PDF需要正确创建，并且您需要知道要获取文本的字段名称（您可以通过添加断点并循环浏览可用字段来解决此问题）。

WebSupergoo.ABCpdf6.Doc newPDF = new WebSupergoo.ABCpdf6.Doc();
newPDF.Read("existing_file.pdf");

foreach ( WebSupergoo.ABCpdf6.Objects.Field field in newPDF.Form.Fields )
{
    if ( field.Name == "Text1" )
    {
        // update "Text1"
        field.Value = "new value for Text1";
    }
}

newPDF.Save("new_file.pdf");

newPDF.Clear();

在示例中，“Text1”是要更新的字段的名称。注意我还提供了保存更新字段的示例。

希望至少能让您了解如何解决这个问题。

另一答案

这应该工作：

RenderFilter[] filters = new RenderFilter[1];
LocationTextExtractionStrategy regionFilter = new LocationTextExtractionStrategy();
filters[0] = new RegionTextRenderFilter(new Rectangle(llx,lly,urx,ury));
FilteredTextRenderListener strategy = new FilteredTextRenderListener(regionFilter, filters);

String result = PdfTextExtractor.GetTextFromPage(pdfReader, i, strategy);
Console.WriteLine(result);

另一答案

iText的RegionTextRenderFilter正是您所需要的。

所以你想要这样的东西（原谅我的Java，但翻译应该是微不足道的）：

PdfReader reader = new PdfReader(path);

FilteredTextExtractionStrategy regionFilter = 
  new FilteredTextExtractionStrategy( new SimpleTextExtrationStrategy, 
                                      new RegionTextRenderFilter( someRect ) );
String regionText = PdfTextExtractor.getTextFromPage(reader, 0, regionFilter );

另一答案

此代码将在itext 7中使用

PdfReader reader = new PdfReader("D:/Sample2.pdf");
PdfDocument pdfDoc = new PdfDocument(reader);
Rectangle rect = new Rectangle(208, 508, 235, 519);
TextRegionEventFilter regionFilter = new 
TextRegionEventFilter(rect.SetBbox(208, 508, 235, 519));
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
FilteredEventListener listener = new FilteredEventListener();
LocationTextExtractionStrategy extractionStrategy = listener.AttachEventListener(new LocationTextExtractionStrategy(), regionFilter);
new PdfCanvasProcessor(listener).ProcessPageContent(pdfDoc.GetPage(1));
String text = extractionStrategy.GetResultantText();

以上是关于按坐标提取PDF文本的主要内容，如果未能解决你的问题，请参考以下文章