lucene的Tika中的乱码问题
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了lucene的Tika中的乱码问题相关的知识,希望对你有一定的参考价值。
我根据URL将一份网页的源文件读入到数据库中,数据库的编码格式是utf8,然后从数据库中读取出源文件,将它变为一个String,然后将其用Tika解析,但是结果是乱码,有谁有解决方法,在线等
乱码肯定是编码问题。。有可能是那个网页的编码并不是utf-8
所以你采用这种设定死的方式不太好。。
因为很多网页都不是utf-8编码。。
也可以读的时候根据他本身编码在把他变回去。。
当然这样你存的时候就需要整个字段保存它的编码方式。。 参考技术A 你先读出来放到一个jsp 页面里看下是不是乱码吧。
tika 抽取txt文件 乱码怎么解决
参考技术A以上是关于lucene的Tika中的乱码问题的主要内容,如果未能解决你的问题,请参考以下文章