没有从图像中获取印地语文本

Posted

技术标签:

【中文标题】没有从图像中获取印地语文本【英文标题】:Not getting hindi text from image 【发布时间】:2018-10-16 20:46:56 【问题描述】:

我想使用 pytesseract 库从图像中识别印地语文本。

我尝试了什么

以下脚本可识别整体文本,但我没有将其转换为印地语。它只识别典型的欧洲/美国字符:

# -*- coding: utf-8 -*-
from PIL import Image
import pytesseract


pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
#im = Image.open("/tesserocr/hindisample.png")

#im = Image.open("C:/shubhamprojectwork/ocr/tesseract-python-master/sample1.jpg")
im = Image.open("C:/shubhamprojectwork/ocr/tesseract-python-master/hindisample.png")


text = pytesseract.image_to_string(im, lang = 'hin')

print(len(text))
import codecs
f = codecs.open('bla.txt', encoding='utf-8', mode='w')
f.write(text)
f.close()
file1 = open("bla.txt", encoding='utf-8',mode="r+")
file1.seek(0) 

print ("Output of Readline function is ")
print (file1.readline())

我想要文字的图片在这里

.

它正在生成这些文本

Wfififirifilfiafiiaflmtfimfi

WWfiRWWEIB-‘E

fiafiimfiifimfiafitw

fifiéfififimfiafiamfifiw

【问题讨论】:

text = pytesseract.image_to_string(im, lang = 'eng') 表示将使用 eng(英语)traineddata。如果您想提取印地语 - 从 tesseract 存储库下载印地语训练数据(根据您使用的 tesseract 版本)并将“eng”更改为“hin” 非常感谢@DmitriiZ。但这也给出了完全相同的结果 【参考方案1】:

您可能没有印地语训练数据。尝试使用此命令重新安装 tesseract 库 sudo apt-get install tesseract-ocr-hin

【讨论】:

以上是关于没有从图像中获取印地语文本的主要内容,如果未能解决你的问题,请参考以下文章

无法从 iOS 中的 UITextView 获取已删除的字符

Android:将英文数字字符串显示为印地语或任何语言数字字符串

Tableview 中印地语的滞后问题

表格视图中的印地语文本滞后

从多个输入文本中获取 GD 图像

如何使用ajax请求将印地语字体从客户端传递到服务器