包含免费 OCR 基准测试集的资源 [关闭]

Posted

技术标签:

【中文标题】包含免费 OCR 基准测试集的资源 [关闭]【英文标题】:Resources containing OCR benchmark test-sets for free [closed] 【发布时间】:2017-05-02 02:14:52 【问题描述】:

我想对扫描的文本(通常是任何扫描,即 A4)进行 OCR 基准测试。我能够找到一些 NEOCR 数据集 here,但 NEOCR 并不是我真正想要的。

我希望能提供指向具有适当图像和引用的实际文本(包含在图像中)的免费数据库来源的链接。

我希望这个帖子对其他为数据集进行 OCR 冲浪的人也有用,因为我没有找到对此类来源的任何好的参考。

谢谢!

【问题讨论】:

UNLV datasets 怎么样? 【参考方案1】:

我有幸在多个项目中使用大学研究数据集。这些通常很有用,因为需要发布输入和预期结果以独立再现研究结果。一个例子是下面讨论的Fourth Annual Test of OCR Accuracy 的 UNLV 数据集。

另一种方法是从数据集开始并创建自己的训练集。与已转录 57,136 本书的 Project Gutenberg 合作可能也是值得的。您可以获取 html 版本(带有图像)并使用各种转换(如字体、旋转等)将其打印出来。然后您可以转换图像并扫描它们以与文本版本进行比较。请参阅下面的示例。

1) OCR 准确度 DOE 和 UNLV 年度测试

从 1992 年到 1995 年,能源部 (DOE) 和 UNLV 信息科学研究所 (ISRI) 进行了 5 年的 OCR 测试。您可以在此处找到每年的研究说明:

概述:http://www.expervision.com/testimonial-world-leading-and-champion-ocr/annual-test-of-ocr-accuracy-by-us-department-of-energy-doe-university-of-nevada-las-vegas-unlv

1.1) UNLV Tesseract OCR 测试数据发表在第四届 OCR 准确度年度测试中

使用Tesseract 进行的第四次年度测试的数据已在线发布。由于这是一项 OCR 研究,因此它可能适合您的目的。

此数据现在作为 ISRI 的 UNLV OCR 评估工具项目的一部分托管在 Google 代码上:

项目:https://code.google.com/archive/p/isri-ocr-evaluation-tools/

在 1992 年至 1996 年期间,UNLV/ISRI 年度 OCR 准确性测试中使用了数千个英语和一些西班牙语页面的图像和 Ground Truth 文本和区域文件。

UNLV/ISRI OCR 准确性年度测试中使用的 OCR 评估工具的源代码。

适用于 OCR 和文本检索的 UNLV 信息科学研究所的出版物。

您可以在此处找到有关此数据集的信息:

描述:https://github.com/tesseract-ocr/tesseract/wiki/UNLV-Testing-of-Tesseract 数据集:https://code.google.com/archive/p/isri-ocr-evaluation-tools/downloads

在数据集链接中,您会找到许多可以下载的 gzip 压缩包。在每个 tarball 中有许多目录,其中包含一组文件。每个文档有 3 个文件:

.tif二进制图片文件 .txt文本文件 .uzn 用于描述扫描图像的区域文件

注意:在发布时,我注意到这个数据集最初是由@Stef 在上面的评论中发布的。

2) 古腾堡计划

Project Gutenberg 已转录以下格式的 57,136 部免费电子书:

HTML EPUB(带图片) EPUB(无图片) Kindle(带图片) Kindle(无图片) 纯文本 UTF-8

这里是一个例子:http://www.gutenberg.org/ebooks/766

您可以通过执行以下操作来创建测试数据集:

创建测试文件:

    从 HTML、ePub、Kindle 或纯文本版本开始 使用不同的字体、旋转、背景颜色、带和不带图像等进行渲染和变换。 将渲染转换为所需的格式,例如TIFF、PDF 等

测试:

    通过 OCR 系统运行生成的图像 与原始纯文本版本比较

【讨论】:

【参考方案2】:

可可数据集: https://vision.cornell.edu/se3/coco-text-2/

Char74K 数据: http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/

COCO 数据集是图像的基准数据集。使用 COCO 数据集安排世界上最艰难的比赛。可用于物体检测、图像字幕、OCR。

【讨论】:

欢迎来到 *** Manas。虽然此链接可能会回答问题,但最好在此处包含答案的基本部分并提供链接以供参考。 Answers that are little more than a link may be deleted. COCO 数据集实际上是一个基准数据集,被谷歌、微软、TextSpotter 和 VGG(牛津实验室)等一些大巨头使用

以上是关于包含免费 OCR 基准测试集的资源 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

公司HBase基准性能测试之准备篇

基准测试工具:Wrk初识

工作2年,还不会单元测试和基准测试,get新技能!

浅谈基准测试

DIY电压基准测万用表

siege vs wrk的负载测试和基准测试[关闭]