C# - Tesseract OCR:一次扫描多种语言

Posted

技术标签:

【中文标题】C# - Tesseract OCR:一次扫描多种语言【英文标题】:C# - Tesseract OCR: scan multiple language at once 【发布时间】:2022-01-05 12:33:06 【问题描述】:

你知道怎么做吗?

TesseractEngine engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);

通常,对于一种语言,只需添加缩写即可。但是,如果我想扫描包含多种语言的图像怎么办?顺便说一句,我使用 Charles Weld 的包。谢谢。

【问题讨论】:

也许可以试试 IronOCR 并遵循本指南:dev.to/mhamzap10/how-to-use-tesseract-ocr-in-c-9gc 好吧,我已经试过那个了,但我只想试试这个 tesseract。 【参考方案1】:

According to here,支持+语法,所以你只需添加一个+符号,如下所示:

TesseractEngine engine = new TesseractEngine("./tessdata", "jpn+eng", EngineMode.Default); // jpn+eng for Japanese and English

另外,according to here:

输出可以根据语言的顺序不同,所以 -l eng+hin 可以给出与 -l hin+eng 不同的结果。

据我所知,您首先指定的语言准确度更高。

【讨论】:

顺便说一句,关于你提到的第二件事(输出可能会根据语言的顺序而有所不同,所以 -l eng+hin 可以给出与 -l hin+eng 不同的结果),我该怎么做用吗? @Riiko:how can I use it?。我不确定你在问什么。在我的示例中,"jpn+eng" 可以给出与"eng+jpn" 不同的结果。换句话说,顺序很重要。我引用的文档来自命令行文档。 我明白了,那我就不需要了。第一个工作正常,我没有使用命令的东西。

以上是关于C# - Tesseract OCR:一次扫描多种语言的主要内容,如果未能解决你的问题,请参考以下文章

如何加速 tesseract OCR

C#中的Tesseract OCR [重复]

CPython 是不是允许在 Windows 10 中的 C# 中导入 OpenCV 和 Tesseract-OCR?

具有表格或行的文档的 Tesseract OCR 文本顺序

Tesseract OCR - 如何训练这样的图像

tesseract-ocr,tesseract,pytesseract在windows下怎么安装