从文本图像生成字体
Posted
技术标签:
【中文标题】从文本图像生成字体【英文标题】:Generate font from an image of text 【发布时间】:2011-05-13 00:59:43 【问题描述】:是否可以生成特定的 下面给定图像中的一组字体 ?
我的想法是生成特定的字体 对于下面给出的文本图像,由 手动选择部分 图像并将其映射到一组 letter's.为此生成字体 然后用这个字体来制作 可读的 OCR.Is 生成 可以使用任何开源字体 执行 ?也请建议 任何好的 OCR。
【问题讨论】:
我认为 y 和 g 上的那些下降会混淆大多数 OCR 程序。 @jcomeau_ictx:你用过什么好的OCR吗? tesseract 是我用过最好的,它在标准的固定字体和一些比例字体上都很好。 @jcomeau_ictx:我的想法是手动选择文本的药水并将其映射为字母字体,以便ocr可以轻松阅读。根据您的意见可以吗? 确定是可能;但海事组织这将是大量的工作! 【参考方案1】:Abbyy FineReader 10 获得了比预期更好的结果,但可以预见的是,当字符接触时会感到困惑。
你的问题是行距太小了。每行的下行与下一行中字符的字符边界框重叠。这使得字符分割几乎不可能,因为字符是接触和重叠的。几乎不可能训练重叠字符的组合数量。 'g' 和 'y' 字符是最严重的违规者。
这个的双行间距版本可能会相当好地进行 OCR。
将每行分段和分隔的自定义解决方案以及良好的字典肯定会改善结果。尽管如此,仍然会有一些错误需要手动更正。自定义例程必须处理上升和下降,并尝试将图像分割成线,然后可以将这些线馈送到体面的 OCR 引擎。一种方法是分析页面上的每个字符块并将其分配到一行。 Leptonica (www.leptonica.com - C Imaging Library) 可能会使这项工作更容易一些。
如果不先将分辨率提高到 200 或 300 dpi,我不会尝试这样做。
使用此自定义解决方案,如果 OCR 引擎最初表现不佳,则可以选择训练字体。
Abbyy (www.abbyy.com) 或 Google Tesseract OCR 3.00 将是一个不错的起点。
但不能保证所有这些是否都会奏效。这对于 OCR 来说是一个相当困难的页面,您需要确定在海外手动输入是否更好。这取决于需要处理的页面数。
【讨论】:
以上是关于从文本图像生成字体的主要内容,如果未能解决你的问题,请参考以下文章