UIPath入门系列十之PDF文档操作

Posted 2020-12-27 wendyzheng

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了UIPath入门系列十之PDF文档操作相关的知识，希望对你有一定的参考价值。

今天讲解的是PDF数据提取与自动化(PDF Data Extraction and Automation)

一、安装PDF插件

技术分享图片

二、准备PDF文档 (例1-4 Note.pdf, 例5 Invoice.pdf )

技术分享图片

技术分享图片

三、识别PDF所有文字和图像

1. 识别PDF文字: Read PDF txt

2. 识别PDF图像及文字: Read PDF with OCR 和Screen Scraping

3. 识别多个PDF中相同的单个字符 (Get Text 和Anchor Base)

例1：识别PDF文字

1. 新建一个sequence

2. 添加一个Read PDF txt的方法

技术分享图片

Range是指扫描的页数，跟word文档打印的Range是一样的功能。例如："All", "3-7", ”1”

3. 添加一个write txt file输出方法和message box屏幕输出方法

技术分享图片

4. 运行结果如下：图片并未识别

技术分享图片

例2：识别PDF图像和文字方法一

1. 添加Read PDF with OCR

技术分享图片

2.运行结果如下：图片和文字均可识别

技术分享图片

Tips：OCR识别的准确度会随着PDF图像的清晰度而降低，尽量避免使用OCR识别方法。

例3：识别PDF图像和文字方法二

1. 打开PDF文件，点击Screen Scraping

技术分享图片

2. 保存录制结果，添加message box方法，接收 “MicrosoftedgeExeMicro” 变量

技术分享图片

3. 运行结果如下

技术分享图片

例4：识别多个Notes.pdf中相同的 ”IMPORTANT READ:”

1. 打开Notes.pdf，加入getText方法

技术分享图片

2. 添加message box方法

技术分享图片

3. 运行结果如下

技术分享图片

4. 去掉title (可匹配多个PDF文档) 和 text (用index来代替字符串)

5. 接着打开Note2.pdf文档，点击运行按钮，测试结果仍然是 ”IMPORTANT READ:”，Selector选择器的情况如下

技术分享图片

技术分享图片

例5：使用Anchor Base锚点测试多个Invoice文件

1.打开Invoice1.pdf文件，添加一个Anchor Base，锚点里有两个参数，一是找到需要测试的对象名称，二是得到要测试对象的值

技术分享图片

2. find element方法(或find image方法 )中的selectors修改如下

技术分享图片

3. get text方法中的selectors修改如下

技术分享图片

4. 分别测试Invoice1.pdf和Invoice2.pdf文件，测试结果请自行验证

Tips：若使用find image方法，先将PDF设置为实际大小(我使用find image方法测试不成功)

技术分享图片

扩展：后续会推出基于图像的自动化博客(image-based automation)

以上是关于UIPath入门系列十之PDF文档操作的主要内容，如果未能解决你的问题，请参考以下文章