整页文本识别数据集创建
Posted
技术标签:
【中文标题】整页文本识别数据集创建【英文标题】:Full Page Text Recognition Dataset Creation 【发布时间】:2018-10-31 13:45:37 【问题描述】:我一直在阅读诸如 https://arxiv.org/pdf/1704.08628.pdf 之类的 OCR 论文,但我很难找出这些数据集是如何实际生成的。
在链接的论文中,他们使用回归器来预测一行文本的起始位置(一个点)和高度。然后,基于该起点和高度,第二个网络执行 OCR 和行尾检测。我意识到这是一个非常简化的解释,但由此得出的结论是,他们的数据集(至少部分)由整页文本“图像”组成,每行的开始位置都带有注释,然后是给定行上的文本转录。或者,他们可以只使用边界框的左下点作为起点,将框的高度作为词高(如果数据之前使用边界框准备,则无需重新注释)。
那么像这样的数据集是如何实际创建的呢?查看其他数据集,似乎有一些软件可以创建包含与每个图像相关的基本事实的 XML 文件,有人能指出我正确的方向吗?我一直在用谷歌搜索并找到许多用情感等注释文本的工具和其他用于注释图像以进行分割的工具(对于像 YOLO 网络这样的东西),但是我在创建像使用的 Maurdoor 数据集这样的东西时空空如也在链接的论文中。
谢谢
【问题讨论】:
【参考方案1】:因此,提交此内容后,相关线程窗口向我显示了许多我的谷歌搜索没有出现的线程。这个http://www.prima.cse.salford.ac.uk/tools 软件似乎是我一直在寻找的,但我仍然很想听听其他想法。
【讨论】:
以上是关于整页文本识别数据集创建的主要内容,如果未能解决你的问题,请参考以下文章