Tika检测文件类型

Posted hww-2429

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Tika检测文件类型相关的知识,希望对你有一定的参考价值。

Tika类型检测

Tika支持MIME所提供的所有互联网媒体文件类型。每当一个文件通过Tika检测到该文件,其文件类型。检测的介质类型,Tika内部通过以下机制。

MIME标准

多用途Internet邮件扩展(MIME)标准,用于识别文件类型的最佳标准。这些标准的知识有助于在内部相互作用的浏览器。

当浏览器遇到一个媒体文件,它选择可用它来显示其内容的兼容软件。在情况下,它不具有任何合适的应用程序,以运行一个特定媒体文件,它建议用户获得合适的插件软件。

使用Facade类类型检测

facade类的detect() 方法被用于检测文档类型。这个方法接受一个文件作为输入。

下面显示的是文件类型检测与Tika外观类的示例程序。

  • 传入参数为File对象时
  @Test
    public void getImageToJPEG() {
        try {
            File file = new File("C:\\Users\\hww\\Downloads\\0855fde2df59fa4fe9427e78d773dde5.jpeg");
            Tika tika = new Tika();
            String fileType = tika.detect(file);
            System.out.println(fileType);//image/jpeg
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

输出结果

image/jpeg
  • 传入参数为文件路径时
   @Test
    public void getImageToJPG() {
        try {
            Tika tika = new Tika();
            String fileType = tika.detect("C:\\Users\\hww\\Downloads\\95a59c718b2575fdbccf66924c14fcd5.jpg");
            System.out.println(fileType);//image/jpeg
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

输入结果:

image/jpeg
  • detect()方法参数有以下几种:

 技术图片

 

以上是关于Tika检测文件类型的主要内容,如果未能解决你的问题,请参考以下文章

正确使用 Apache Tika MediaType

tika的使用

java web项目文件上传中常见的mime类型(基于Apache的tika)

使用 tika (application/x-tika-ooxml) 检索错误的 mime 类型

如何获取 Office 文档的子类型 MIME,而不是在 Tika 中获取 OOXML

使用 Apache tika 获取 MimeType 子类型