使用 tika 库从 java 中的图像中提取文本

Posted

技术标签:

【中文标题】使用 tika 库从 java 中的图像中提取文本【英文标题】:Extract text from image in java using tika library 【发布时间】:2016-08-08 08:19:16 【问题描述】:

我需要从图像中提取文本,所以我发现 OCR 库很少

    苔丝4j

这没有奏效,所以我转向 apache tika。

在 apacke tika 中,我尝试了 ImageParser 和 JpegParser 。它正在提供文件信息,但未在我的图像文件中提供文本。

【问题讨论】:

你try reading the Apache Tika documentation on performing OCR了吗?如果是,你在哪里卡住了?如果不是为什么不呢?当你这样做时会发生什么? 是的,我阅读了 tika 文档。代码设置工作正常,但 Jpeg 解析器从一些图像返回文本,而不是从我必须提取的图像返回。 【参考方案1】:

您也可以从命令行运行 tika。仅在要对其执行 OCR 的图像上运行它:

java -jar ./tika-app/target/tika-app-1.13-SNAPSHOT.jar -t ~/Desktop/tess.png

Tika 在内部使用 tesseract 来执行 OCR。所以你应该在你的 PATH 上安装它。

【讨论】:

【参考方案2】:

对于图像处理Tessaract是最好的api,它与java一起提供了一些方法,尝试一次。您可以找到更多详情here

【讨论】:

我在 linux 上使用 tessaract。它能够从图像中提取文本,但它缺少一些字符,而不是一些字符,它被认为是特殊字符。 使用pretius.com/…中所述的字符白名单提高准确性

以上是关于使用 tika 库从 java 中的图像中提取文本的主要内容,如果未能解决你的问题,请参考以下文章

Tika Server - 没有书签和图像标签的解析

无法使用 tika 从 pdf 文件中提取文本内容

如何将使用 Tika 从 PDF 中提取的文本放入 JSON?

尝试使用 python 中的地理库从文本中提取城市名称时出错

Apache Tika 提取扫描的 PDF 文件

lucene索引查看工具luke和文本提取工具Tika