如何获取 Office 文档的子类型 MIME,而不是在 Tika 中获取 OOXML

Posted

技术标签:

【中文标题】如何获取 Office 文档的子类型 MIME,而不是在 Tika 中获取 OOXML【英文标题】:How to get Sub-type MIME of an Office document, instead of getting OOXML in Tika 【发布时间】:2018-12-11 22:58:36 【问题描述】:

我正在使用 Tika 来验证文件类型,并确保没有人试图以真实文件为幌子发送恶意或虚假文件。为此,我正在使用 Apache Tika。但是,即使我将 InputStream 包装到 TikaInputStream 中,或者使用 OOXMLParser 或 OfficeParser,它仍然返回 application/x-tika-ooxml 而不是 application/vnd.openxmlformats-officedocument.wordprocessingml.document。如何访问或让它返回子类型?

    public static boolean isValidFileMimeType(TikaInputStream stream, String[] validMimes) 
    Tika tika = new Tika();
    try 
        Metadata meta = new Metadata();
        tika.detect(stream, meta);
        String mimetype = meta.get("Content-Type");
        logger.debug("MIME type from TIKA is : [" + mimetype +"]");
        logger.debug(meta.toString());
        //return isValidFileMimeType(mimetype, validMimes);
        return true;
     catch (Exception e) 
        logger.error("Error validating InputStream: ", e);
        return false;
    

public static boolean isValidFileMimeType(MultipartFile file, String[] mimeTypes) 
    TikaInputStream in = null;
    boolean isValidFile = false;
     try 
         in = TikaInputStream.get(file.getInputStream());
        isValidFile = DataValidator.isValidFileMimeType(in, mimeTypes);
     catch (IOException e) 
        logger.error("Error while validating file mime type: ", e);
     finally 
        if (in != null) 
            try 
                in.close();
             catch (IOException e2) 
                logger.error("Error while closing InputStream: ", e2);
            
        
    
        return isValidFile;

【问题讨论】:

您的代码似乎没有将TikaInputStream 传递给第二种方法,而是每秒重新使用原始file.get 一个。如果您修复它以实际使用您创建的 TikaInputStream 会发生什么? 你是对的,这是我为测试所做的编辑。将通过 TikaInputStream,以及将第一个方法更改为采用 TikaInputStream 并查看是否有效。 它仍然只提供ooxml。我想我之前测试过,没有改变,但至少现在我确定通过了 TikaInputStream --detect模式下尝试独立的单jar Tika App,可以正确获取您的文件类型吗? 它确实说明了正确的类型。它使用 OOXML 解析器,当我尝试在项目中 OOXMLParse 时,它返回 ClassDefNotFound,尽管它可以找到依赖项并且 jar 在那里。我想如果我能让OOXMLParser 正常工作,它就会运行,只需要找出它为什么不工作。 【参考方案1】:

只需导入/使用 Tika 解析器

【讨论】:

以上是关于如何获取 Office 文档的子类型 MIME,而不是在 Tika 中获取 OOXML的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Spring Boot RestTemplate 将 Microsoft Office Mime 类型作为 Content-Type 标头发送

input限定文件上传类型:Microsoft Office MIME types

使用 .NET,如何根据文件签名而不是扩展名找到文件的 mime 类型

使用 .NET,如何根据文件签名而不是扩展名找到文件的 mime 类型

使用 .NET,如何根据文件签名而不是扩展名找到文件的 mime 类型

使用 .NET,如何根据文件签名而不是扩展名找到文件的 mime 类型