lucene的Tika中的乱码问题

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了lucene的Tika中的乱码问题相关的知识,希望对你有一定的参考价值。

我根据URL将一份网页的源文件读入到数据库中,数据库的编码格式是utf8,然后从数据库中读取出源文件,将它变为一个String,然后将其用Tika解析,但是结果是乱码,有谁有解决方法,在线等

乱码肯定是编码问题。。
有可能是那个网页的编码并不是utf-8
所以你采用这种设定死的方式不太好。。
因为很多网页都不是utf-8编码。。
也可以读的时候根据他本身编码在把他变回去。。
当然这样你存的时候就需要整个字段保存它的编码方式。。
参考技术A 你先读出来放到一个jsp 页面里看下是不是乱码吧。

tika 抽取txt文件 乱码怎么解决

参考技术A

以上是关于lucene的Tika中的乱码问题的主要内容,如果未能解决你的问题,请参考以下文章

lucene索引查看工具luke和文本提取工具Tika

Javaweb编程中的乱码问题

R语言中的中文乱码问题总结

MySQL数据库中的中文乱码如何解决

JSP中的乱码以及Servlet中的乱码问题及解决方案(没有使用AJAX的情况)

解决jsp中文乱码问题