C# - Tesseract OCR：一次扫描多种语言

Posted 2023-04-17

技术标签:

【中文标题】C# - Tesseract OCR：一次扫描多种语言【英文标题】：C# - Tesseract OCR: scan multiple language at once 【发布时间】：2022-01-05 12:33:06 【问题描述】：

你知道怎么做吗？

TesseractEngine engine = new TesseractEngine("./tessdata", "eng", EngineMode.Default);

通常，对于一种语言，只需添加缩写即可。但是，如果我想扫描包含多种语言的图像怎么办？顺便说一句，我使用 Charles Weld 的包。谢谢。

【问题讨论】：

也许可以试试 IronOCR 并遵循本指南：dev.to/mhamzap10/how-to-use-tesseract-ocr-in-c-9gc 好吧，我已经试过那个了，但我只想试试这个 tesseract。 【参考方案1】：

According to here，支持+语法，所以你只需添加一个+符号，如下所示：

TesseractEngine engine = new TesseractEngine("./tessdata", "jpn+eng", EngineMode.Default); // jpn+eng for Japanese and English

另外，according to here:

输出可以根据语言的顺序不同，所以 -l eng+hin 可以给出与 -l hin+eng 不同的结果。

据我所知，您首先指定的语言准确度更高。

【讨论】：

顺便说一句，关于你提到的第二件事（输出可能会根据语言的顺序而有所不同，所以 -l eng+hin 可以给出与 -l hin+eng 不同的结果），我该怎么做用吗？ @Riiko：how can I use it?。我不确定你在问什么。在我的示例中，"jpn+eng" 可以给出与"eng+jpn" 不同的结果。换句话说，顺序很重要。我引用的文档来自命令行文档。我明白了，那我就不需要了。第一个工作正常，我没有使用命令的东西。

以上是关于C# - Tesseract OCR：一次扫描多种语言的主要内容，如果未能解决你的问题，请参考以下文章