java使用itex读取pdf,并搜索关键字,为其盖章

Posted Enjoy Life

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了java使用itex读取pdf,并搜索关键字,为其盖章相关的知识,希望对你有一定的参考价值。

导读:近期要做一个根据关键字定位pdf的盖章位置的相关需求,其中关键字可配置多个(包含pdf文档中可能不存在的关键字),当页面显示盖章完成时,打开pdf显示已经损坏。 
排查后发现,当itext搜索的关键字在pdf文档中不存在时,就已经将结果返回到前台界面,这时itex读取的流还未关闭,导致pdf读取未结束,pdf文档才被损坏。 
下面是读取pdf的操作,记录一下: 
所需包: itext-2.06.jar itext-asian,jar itextpdf-5.4.0.jar

 

 /****搜索关键字操作:****/
   /*sourcePDF: pdf的文档路径
   splitParentkeyValues[i]:关键字,其中对关键字进行特殊符号的过滤,不然会导致后面的匹配结果有误。*/
   matches = MatchItemUtil.matchPage(sourcePDF, splitParentkeyValues[i]);
 
 /*找出关键字后,将要盖章的图片准确定位到关键字周围,也可以采用坐标的方式**/
 MatchItem matchItem  = new MatchItem();
 int pageNum = matches.get(j).getPageNum();
 float pageWidth = reader.getPageSize(pageNum).getWidth();
 float pageHeight = reader.getPageSize(pageNum).getHeight();
 matchItem.setX(matches.get(j).getX()-splitParentkeyValues.length * 20);
 matchItem.setY(matches.get(j).getY() - 150 / 1.527731f);
 img.setAbsolutePosition(matchItem.getX(), matchItem.getY());// 位置
 PdfContentByte over = stamp.getOverContent(pageNum);
 over.addImage(img);

1. //根据关键字和pdf路径,全文搜索关键字 

 /**
 
 查找所有
 @param fileName 文件路径
 @param keyword 关键词
 @return
 @throws Exception 
 */
 public static List matchPage(String fileName,String keyword) throws Exception { 
 List items = new ArrayList(); 
 PdfReader reader = new PdfReader(fileName); 
 int pageSize = reader.getNumberOfPages(); 
 for(int page = 1;page <= pageSize;page++){ 
 items.addAll(matchPage(reader,page,keyword)); 
 } 
 return items; 
 }

2. 根据关键字、文档路径、pdf页数寻找特定的文件内容

 /**
 
 在文件中寻找特定的文字内容
 @param reader
 @param pageNumber
 @param keyword
 @return
 @throws Exception 
 */ 
 public static List matchPage(PdfReader reader, Integer pageNumber,String keyword) throws Exception { 
 KeyWordPositionListener renderListener = new KeyWordPositionListener(); 
 renderListener.setKeyword(keyword); 
 PdfReaderContentParser parse = new PdfReaderContentParser(reader); 
 Rectangle rectangle = reader.getPageSize(pageNumber); 
 renderListener.setPageNumber(pageNumber); 
 renderListener.setCurPageSize(rectangle); 
 parse.processContent(pageNumber, renderListener); 
 return findKeywordItems(renderListener,keyword); 
 }

3. 找到匹配的关键词块 

/**

找到匹配的关键词块
@param renderListener
@param keyword
@return 
*/ 
public static List findKeywordItems(KeyWordPositionListener renderListener,String keyword){ 
//先判断本页中是否存在关键词 
List allItems = renderListener.getAllItems();//所有块LIST 
StringBuffer sbtemp = new StringBuffer(“”); 
for(MatchItem item : allItems){//将一页中所有的块内容连接起来组成一个字符串。 
sbtemp.append(item.getContent()); 
} 
if(sbtemp.toString().indexOf(keyword) == -1){//一页组成的字符串没有关键词,直接return 
return renderListener.getMatches(); 
} 
//第一种情况:关键词与块内容完全匹配的项 
List matches = renderListener.getMatches(); 
//第二种情况:多个块内容拼成一个关键词,则一个一个来匹配,组装成一个关键词 
sbtemp = new StringBuffer(“”); 
List tempItems = new ArrayList(); 
for(MatchItem item : allItems){ 
//1,关键词中存在某块 2,拼装的连续的块=关键词 3,避开某个块完全匹配关键词 
//关键词 中国移动 而块为 中 ,国,移动 
//关键词 中华人民 而块为中,华人民共和国 这种情况解决不了,也不允许存在 
if(keyword.indexOf(item.getContent()) != -1 && !keyword.equals(item.getContent())){ 
tempItems.add(item); 
sbtemp.append(item.getContent()); 
if(keyword.indexOf(sbtemp.toString()) == -1){//如果暂存的字符串和关键词 不再匹配时 
sbtemp = new StringBuffer(item.getContent()); 
tempItems.clear(); 
tempItems.add(item); 
} 
if(sbtemp.toString().equalsIgnoreCase(keyword)){//暂存的字符串正好匹配到关键词时 
MatchItem tmpitem = getRightItem(tempItems, keyword); 
if(tmpitem != null){ 
matches.add(tmpitem);//得到匹配的项 
} 
sbtemp = new StringBuffer(“”);//清空暂存的字符串 
tempItems.clear();//清空暂存的LIST 
continue;//继续查找 
} 
}else{//如果找不到则清空 
sbtemp = new StringBuffer(“”); 
tempItems.clear(); 
} 
} 
//第三种情况:关键词存在块中 
for(MatchItem item : allItems){ 
if(item.getContent().indexOf(keyword) != -1 && !keyword.equals(item.getContent())){ 
matches.add(item); 
} 
} 
return matches; 
}

4. KeyWordPositionListener用来匹配pdf的关键词

import java.util.ArrayList; 
import java.util.List;

import org.apache.log4j.Logger; 
import org.drools.util.StringUtils;

import com.itextpdf.awt.geom.Rectangle2D; 
import com.itextpdf.text.Rectangle; 
import com.itextpdf.text.pdf.parser.ImageRenderInfo; 
import com.itextpdf.text.pdf.parser.RenderListener; 
import com.itextpdf.text.pdf.parser.TextRenderInfo; 
public class KeyWordPositionListener implements RenderListener { 
private static Logger logger = Logger.getLogger(KeyWordPositionListener.class);
private List<MatchItem> matches = new ArrayList<MatchItem>();
private List<MatchItem> allItems = new ArrayList<MatchItem>();
private Rectangle curPageSize;

/**
 * 匹配的关键字
 */
private String keyword;
/**
 * 匹配的当前页
 */
private Integer pageNumber;

public void beginTextBlock() {
    //do nothing
}

public void renderText(TextRenderInfo renderInfo) {
    String content = renderInfo.getText();
    content = content.replace("<", "").replace("《", "").replace("(", "").replace("(", "").replace(""", "").replace("‘", "")
                     .replace(">", "").replace("》", "").replace(")", "").replace(")", "").replace("、", "").replace(".", "")
                     .replace(":", "").replace(":", "").replace(" ", "");
    Rectangle2D.Float textRectangle = renderInfo.getDescentLine().getBoundingRectange();
    MatchItem item = new MatchItem();
    item.setContent(content);
    item.setPageNum(pageNumber);
    item.setPageWidth(curPageSize.getWidth());
    item.setPageHeight(curPageSize.getHeight());
    item.setX((float)textRectangle.getX());
    item.setY((float)textRectangle.getY());
    if(!StringUtils.isEmpty(content)){
        if(content.equalsIgnoreCase(keyword)) {
            matches.add(item);
        }           
    }else{
        item.setContent("空字符串");
    }
    allItems.add(item);//先保存所有的项
}

public void endTextBlock() {
    //do nothing
}

public void renderImage(ImageRenderInfo renderInfo) {
    //do nothing
}

/**
 * 设置需要匹配的当前页
 * @param pageNumber
 */
public void setPageNumber(Integer pageNumber) {
    this.pageNumber = pageNumber;
}

/**
 * 设置需要匹配的关键字,忽略大小写
 * @param keyword
 */
public void setKeyword(String keyword) {
    this.keyword = keyword;
}

/**
 * 返回匹配的结果列表
 * @return
 */
public List<MatchItem> getMatches() {
    return matches;
}

void setCurPageSize(Rectangle rect) {
    this.curPageSize = rect;
}

public List<MatchItem> getAllItems() {
    return allItems;
}

public void setAllItems(List<MatchItem> allItems) {
    this.allItems = allItems;
}
}

5. 用来保存关键字新建的对象 

public class MatchItem { 
private Integer pageNum; 
private Float x; 
private Float y; 
private Float pageWidth; 
private Float pageHeight; 
private String content;
public Integer getPageNum() {
    return pageNum;
}
public void setPageNum(Integer pageNum) {
    this.pageNum = pageNum;
}
public Float getX() {
    return x;
}
public void setX(Float x) {
    this.x = x;
}
public Float getY() {
    return y;
}
public void setY(Float y) {
    this.y = y;
}
public Float getPageWidth() {
    return pageWidth;
}
public void setPageWidth(Float pageWidth) {
    this.pageWidth = pageWidth;
}
public Float getPageHeight() {
    return pageHeight;
}
public void setPageHeight(Float pageHeight) {
    this.pageHeight = pageHeight;
}
public String getContent() {
    return content;
}
public void setContent(String content) {
    this.content = content;
}

public String toString() {
    return "MatchItem [pageNum=" + pageNum + ", x=" + x + ", y=" + y
            + ", pageWidth=" + pageWidth + ", pageHeight=" + pageHeight
            + ", content=" + content + "]";
}
}

 




以上是关于java使用itex读取pdf,并搜索关键字,为其盖章的主要内容,如果未能解决你的问题,请参考以下文章

怎么用java读取pdf文件内容

如何创建和填写 PDF 表单

如何读取文本文件(逐行)并使用输出作为 nameS 在 java 中创建 .pdf 文件?

java操作pdf文件,能否找到某个关键词所在的页码? 谢谢!

我是不是必须将 Azure Blob 存储中的 PDF 文件存储到 OCR 并为其编制索引?

以编程方式读取 PDF 嵌入式搜索索引