整页文本识别数据集创建

Posted 2023-04-17

技术标签:

【中文标题】整页文本识别数据集创建【英文标题】：Full Page Text Recognition Dataset Creation 【发布时间】：2018-10-31 13:45:37 【问题描述】：

我一直在阅读诸如 https://arxiv.org/pdf/1704.08628.pdf 之类的 OCR 论文，但我很难找出这些数据集是如何实际生成的。

在链接的论文中，他们使用回归器来预测一行文本的起始位置（一个点）和高度。然后，基于该起点和高度，第二个网络执行 OCR 和行尾检测。我意识到这是一个非常简化的解释，但由此得出的结论是，他们的数据集（至少部分）由整页文本“图像”组成，每行的开始位置都带有注释，然后是给定行上的文本转录。或者，他们可以只使用边界框的左下点作为起点，将框的高度作为词高（如果数据之前使用边界框准备，则无需重新注释）。

那么像这样的数据集是如何实际创建的呢？查看其他数据集，似乎有一些软件可以创建包含与每个图像相关的基本事实的 XML 文件，有人能指出我正确的方向吗？我一直在用谷歌搜索并找到许多用情感等注释文本的工具和其他用于注释图像以进行分割的工具（对于像 YOLO 网络这样的东西），但是我在创建像使用的 Maurdoor 数据集这样的东西时空空如也在链接的论文中。

谢谢

【问题讨论】：

【参考方案1】：

因此，提交此内容后，相关线程窗口向我显示了许多我的谷歌搜索没有出现的线程。这个http://www.prima.cse.salford.ac.uk/tools 软件似乎是我一直在寻找的，但我仍然很想听听其他想法。

【讨论】：

以上是关于整页文本识别数据集创建的主要内容，如果未能解决你的问题，请参考以下文章

资源分享 | 中文自然语言处理医疗法律等公开数据集

项目实战 | YOLOv5 + Tesseract-OCR 实现车牌号文本识别

知识图谱命名实体识别（NLP）

政治领域的命名实体识别

Keras深度学习实战（41）——语音识别

如何识别作为光学字符识别 (OCR) 输出的文本中的实体？