使用 c# 和 Tesseract 读取 .jpeg 图像文本

Posted

技术标签:

【中文标题】使用 c# 和 Tesseract 读取 .jpeg 图像文本【英文标题】:Read .jpeg image text using c# and Tesseract 【发布时间】:2018-09-16 01:23:34 【问题描述】:

我正在尝试使用 Tesseract 读取图像的文本内容。我为此使用以下代码。

try

    //long i;
    var image = new Bitmap(@"D:\Projects\Project Docs\Oasis\20180405T105834.618.jpeg");
    var ocr = new tessnet2.Tesseract();
    //ocr.SetVariable("tessedit_char_whitelist", "0123456789");
    ocr.Init(@"D:\Projects\Project Docs\Oasis\", "eng", false);

    var result = ocr.DoOCR(image, Rectangle.Empty);
    foreach (tessnet2.Word word in result)
    
        Console.WriteLine(word.Text);
        Console.Read();
    
    Console.ReadKey();

catch (Exception Ex)


    throw;

ocr.Init(@"D:\Projects\Project Docs\Oasis\20180405T105834.618.jpeg", "eng", false);应用程序无一例外地中断。

【问题讨论】:

Tesseract OCR simple example的可能重复 【参考方案1】:
 ocr.Init(@"D:\Projects\Project Docs\Oasis\", "eng", false);

在上述行中,int 的路径将是解决方案中 tessdata 的路径。我更正了我的应用程序的路径 ocr.Init(@"D:\vijesh\My Projects\Tesseract_OCR-master\Tesseract_OCR-master\Content\tessdata", "eng", false);

【讨论】:

以上是关于使用 c# 和 Tesseract 读取 .jpeg 图像文本的主要内容,如果未能解决你的问题,请参考以下文章

C#使用tesseract3.02识别验证码模拟登录

如何仅在 Tesseract C# 中捕获数字

如何使用tesseract -magickimage读取验证码

Tesseract 无法读取这个极其简单的数字字符串

C# - 如何使用 Tesseract 3.0 Wrapper 获取每个字符的边界框?

配置 Tesseract OCR 以读取相同字体大小的单词