使用 tika 库从 java 中的图像中提取文本
Posted
技术标签:
【中文标题】使用 tika 库从 java 中的图像中提取文本【英文标题】:Extract text from image in java using tika library 【发布时间】:2016-08-08 08:19:16 【问题描述】:我需要从图像中提取文本,所以我发现 OCR 库很少
-
苔丝4j
这没有奏效,所以我转向 apache tika。
在 apacke tika 中,我尝试了 ImageParser 和 JpegParser 。它正在提供文件信息,但未在我的图像文件中提供文本。
【问题讨论】:
你try reading the Apache Tika documentation on performing OCR了吗?如果是,你在哪里卡住了?如果不是为什么不呢?当你这样做时会发生什么? 是的,我阅读了 tika 文档。代码设置工作正常,但 Jpeg 解析器从一些图像返回文本,而不是从我必须提取的图像返回。 【参考方案1】:您也可以从命令行运行 tika。仅在要对其执行 OCR 的图像上运行它:
java -jar ./tika-app/target/tika-app-1.13-SNAPSHOT.jar -t ~/Desktop/tess.png
Tika 在内部使用 tesseract 来执行 OCR。所以你应该在你的 PATH 上安装它。
【讨论】:
【参考方案2】:对于图像处理Tessaract
是最好的api,它与java一起提供了一些方法,尝试一次。您可以找到更多详情here
【讨论】:
我在 linux 上使用 tessaract。它能够从图像中提取文本,但它缺少一些字符,而不是一些字符,它被认为是特殊字符。 使用pretius.com/…中所述的字符白名单提高准确性以上是关于使用 tika 库从 java 中的图像中提取文本的主要内容,如果未能解决你的问题,请参考以下文章
如何将使用 Tika 从 PDF 中提取的文本放入 JSON?