使用 tika 库从 java 中的图像中提取文本

Posted 2023-04-17

技术标签:

【中文标题】使用 tika 库从 java 中的图像中提取文本【英文标题】：Extract text from image in java using tika library 【发布时间】：2016-08-08 08:19:16 【问题描述】：

我需要从图像中提取文本，所以我发现 OCR 库很少

苔丝4j

这没有奏效，所以我转向 apache tika。

在 apacke tika 中，我尝试了 ImageParser 和 JpegParser 。它正在提供文件信息，但未在我的图像文件中提供文本。

【问题讨论】：

你try reading the Apache Tika documentation on performing OCR了吗？如果是，你在哪里卡住了？如果不是为什么不呢？当你这样做时会发生什么？是的，我阅读了 tika 文档。代码设置工作正常，但 Jpeg 解析器从一些图像返回文本，而不是从我必须提取的图像返回。 【参考方案1】：

您也可以从命令行运行 tika。仅在要对其执行 OCR 的图像上运行它：

java -jar ./tika-app/target/tika-app-1.13-SNAPSHOT.jar -t ~/Desktop/tess.png

Tika 在内部使用 tesseract 来执行 OCR。所以你应该在你的 PATH 上安装它。

【讨论】：

【参考方案2】：

对于图像处理Tessaract是最好的api，它与java一起提供了一些方法，尝试一次。您可以找到更多详情here

【讨论】：

我在 linux 上使用 tessaract。它能够从图像中提取文本，但它缺少一些字符，而不是一些字符，它被认为是特殊字符。使用pretius.com/…中所述的字符白名单提高准确性

以上是关于使用 tika 库从 java 中的图像中提取文本的主要内容，如果未能解决你的问题，请参考以下文章

Tika Server - 没有书签和图像标签的解析

无法使用 tika 从 pdf 文件中提取文本内容

如何将使用 Tika 从 PDF 中提取的文本放入 JSON？

尝试使用 python 中的地理库从文本中提取城市名称时出错

Apache Tika 提取扫描的 PDF 文件

lucene索引查看工具luke和文本提取工具Tika