使用 Tesseract OCR 进行汉字识别

Posted

技术标签:

【中文标题】使用 Tesseract OCR 进行汉字识别【英文标题】:chinese character recognition using Tesseract OCR 【发布时间】:2013-05-11 00:05:00 【问题描述】:

我一直在使用 Tesseract 3.0.2 OCR SDK 进行图像文本提取。但是,如果我使用中文文本图像并通过 OCR,则 Tesseract 不会为我提供中文字符,而不是我得到数字和英文字符。但我需要我正在使用的图像中显示的汉字。

我怎样才能做到这一点?有什么方法可以获取汉字而不是其他字符?

【问题讨论】:

【参考方案1】:

您需要下载中文训练数据(它将是一个类似chi_sim.traineddata的文件)并将其添加到您的tessdata文件夹中。

下载文件 https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

并像这样使用

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];

如果您有任何问题,您可以从以下网址下载我的 tessaract 实验(支持中文) https://github.com/aryansbtloe/ExperimentWithTesseract.git

我已经测试过这个...希望你会发现这个有用。

【讨论】:

好吧,我尝试了您的示例,它在我尝试的大约一半的简体中文字符上运行良好。对于其余部分,它可能将复合字符识别为几个不同的字符,每个字符代表复合字符中的一个组件,或者完全错误。你知道提高识别准确率的方法吗? 新的训练数据链接是github.com/tesseract-ocr/tessdata/raw/master/… 从 github.com/UB-Mannheim/tesseract/wiki 下载安装程序,以便有一个 tessdata 文件夹。 (除了 pip install pytesseract)

以上是关于使用 Tesseract OCR 进行汉字识别的主要内容,如果未能解决你的问题,请参考以下文章

python OCR 图形识别

Windows下使用Tesseract进行OCR文字识别

使用Python,几行代码实现OCR图片识别,附测试图片和识别效果

使用Python,几行代码实现OCR图片识别,附测试图片和识别效果

文本的检测识别实战:使用 Tesseract 进行 OpenCV OCR 和文本识别

google 的 tesseract-OCR 中使用哪种算法进行识别?