在 Java 中获取文件的 MD5 校验和

Posted

技术标签:

【中文标题】在 Java 中获取文件的 MD5 校验和【英文标题】:Getting a File's MD5 Checksum in Java 【发布时间】:2010-09-23 04:29:35 【问题描述】:

我希望使用 Java 来获取文件的 MD5 校验和。我真的很惊讶,但我找不到任何显示如何获取文件的 MD5 校验和的东西。

它是怎么做的?

【问题讨论】:

也许this 会有所帮助。您也可以查看规范,但这需要更多的工作,因为它很复杂。 请记住,根据最近的研究,“MD5 应该被认为是密码损坏且不适合进一步使用”。 en.wikipedia.org/wiki/MD5 MD5 不再被认为是加密安全的,但它仍然足以验证文件一致性并且比 SHA 更快。 @ZakhariaStanley 这是一个关于校验和的问题。 对文件进行 MD5 校验和的规范用途是避免恶意替换分布式文件。这就是它不安全的地方。但在不需要考虑恶意攻击的情况下,它非常适合。 【参考方案1】:

有一个输入流装饰器java.security.DigestInputStream,这样您就可以像往常一样使用输入流来计算摘要,而不必对数据进行额外的传递。

MessageDigest md = MessageDigest.getInstance("MD5");
try (InputStream is = Files.newInputStream(Paths.get("file.txt"));
     DigestInputStream dis = new DigestInputStream(is, md)) 

  /* Read decorated stream (dis) to EOF as normal... */

byte[] digest = md.digest();

【讨论】:

我同意,如果您已经在对字节进行操作(即从 HTTP 连接读取它们),则可以采用非常优雅的方式即时计算校验和。 @AlPhaba 您是否将is 声明为InputStreamFileInputStream?听起来您使用了FileInputStream,这会导致此错误。 @barwnikk 它在 Java 8 中运行良好。MethodNotFound 不是标准 Java 的例外;也许您在谈论编译器错误?无论如何,如果它对你不起作用,那是本地配置问题,或者是其他代码的问题。 @barwnikk 同样,这是您的本地配置问题。这是有效的 Java 7 和 Java 8 代码。如果您坚持使用 2006 年以来的工具,则必须适应。 @erickson 您没有使用文件内容更新 MessageDigest 对象。室温?此代码将始终打印相同的摘要。【参考方案2】:

使用来自Apache Commons Codec 库的DigestUtils:

try (InputStream is = Files.newInputStream(Paths.get("file.zip"))) 
    String md5 = org.apache.commons.codec.digest.DigestUtils.md5Hex(is);

【讨论】:

在我的 android 代码中对我不起作用我收到此错误...java.lang.NoSuchMethodError: org.apache.commons.codec.binary.Hex.encodeHexString at org.apache.commons .codec.digest.DigestUtils.md5Hex(DigestUtils.java:215) @JPM 假设您已经下载了commons-codec.jar 并将其放在您的类路径中? 是的,我在我的android项目中导出了..我可以单步执行代码,并且源文件中存在类...奇怪,一定是一些android Eclipse问题。 我遇到了同样的问题,但是通过这段代码解决了 ` FileInputStream fis = new FileInputStream(new File(filePath));字节数据[] = org.apache.commons.codec.digest.DigestUtils.md5(fis); char md5Chars[] = Hex.encodeHex(data);字符串 md5 = String.valueOf(md5Chars);` 不错!对于新项目,在添加新依赖项之前我总是三思而后行,但对于现有项目,我只需要检查库是否已经存在以使用它。 +1【参考方案3】:

Real's Java-How-to 有一个使用 MessageDigest 类的示例。

查看该页面以获取使用 CRC32 和 SHA-1 的示例。

import java.io.*;
import java.security.MessageDigest;

public class MD5Checksum 

   public static byte[] createChecksum(String filename) throws Exception 
       InputStream fis =  new FileInputStream(filename);

       byte[] buffer = new byte[1024];
       MessageDigest complete = MessageDigest.getInstance("MD5");
       int numRead;

       do 
           numRead = fis.read(buffer);
           if (numRead > 0) 
               complete.update(buffer, 0, numRead);
           
        while (numRead != -1);

       fis.close();
       return complete.digest();
   

   // see this How-to for a faster way to convert
   // a byte array to a HEX string
   public static String getMD5Checksum(String filename) throws Exception 
       byte[] b = createChecksum(filename);
       String result = "";

       for (int i=0; i < b.length; i++) 
           result += Integer.toString( ( b[i] & 0xff ) + 0x100, 16).substring( 1 );
       
       return result;
   

   public static void main(String args[]) 
       try 
           System.out.println(getMD5Checksum("apache-tomcat-5.5.17.exe"));
           // output :
           //  0bb2827c5eacf570b6064e24e0e6653b
           // ref :
           //  http://www.apache.org/dist/
           //          tomcat/tomcat-5/v5.5.17/bin
           //              /apache-tomcat-5.5.17.exe.MD5
           //  0bb2827c5eacf570b6064e24e0e6653b *apache-tomcat-5.5.17.exe
       
       catch (Exception e) 
           e.printStackTrace();
       
   

【讨论】:

是的...... 11 年后仍然在线! :-) Real 的 Java-How-To 中的示例完美运行,并且易于实现。 读取循环有点笨拙。 read() 不会返回零,do/while 也不太合适。 @EJP 感谢您的及时反馈。 字节[] 缓冲区 = 新字节[1024];我们可以将大小从 1024 更改为更优化的值吗?【参考方案4】:

com.google.common.hash API 提供:

适用于所有哈希函数的统一用户友好 API murmur3 的可播种 32 位和 128 位实现 md5(), sha1(), sha256(), sha512() 适配器,只改一行代码就可以在这些之间切换,杂音。 goodFastHash(int bits),当你不在乎你使用什么算法时 HashCode 实例的通用实用程序,例如 combineOrdered / combineUnordered

阅读用户指南(IO Explained、Hashing Explained)。

对于您的用例,Files.hash() 计算并返回文件的摘要值。

例如 sha-1 摘要计算(将 SHA-1 更改为 MD5 以获得 MD5 摘要)

HashCode hc = Files.asByteSource(file).hash(Hashing.sha1());
"SHA-1: " + hc.toString();

请注意crc32 比md5 快得多,因此如果您不需要密码安全校验和,请使用crc32。另请注意,md5 不应用于存储密码等,因为它很容易暴力破解,对于密码,请改用bcrypt、scrypt 或sha-256。

对于使用散列的长期保护,Merkle signature scheme 增加了安全性,由欧盟委员会赞助的后量子密码学研究小组建议使用这种密码学来长期保护量子计算机 (ref)。

请注意,crc32 的冲突率高于其他人。

【讨论】:

上述 Files.hash 的哪些部分不包括 Files.hash ? Files.hash() 被标记为已弃用,推荐方式为:Files.asByteSource(file).hash(Hashing.sha1()) 自 2018 年 1 月起,Hashing.sha1() 被标记为已弃用。建议使用函数Hashing.sha256()。 source【参考方案5】:

使用 nio2 (Java 7+) 并且没有外部库:

byte[] b = Files.readAllBytes(Paths.get("/path/to/file"));
byte[] hash = MessageDigest.getInstance("MD5").digest(b);

将结果与预期的校验和进行比较:

String expected = "2252290BC44BEAD16AA1BF89948472E8";
String actual = DatatypeConverter.printHexBinary(hash);
System.out.println(expected.equalsIgnoreCase(actual) ? "MATCH" : "NO MATCH");

【讨论】:

@Arash 绝对是的 - 谢谢。我混淆了 JDK Files 类和 Guava 的。 我比 erickson 更喜欢这个解决方案,因为它可以用 Optionals 包装以使用纯函数式编程 对于大文件,这将使用大量内存,因为读取整个文件然后将其馈送到摘要中,而不是读取块并在读取时“消化”它们。【参考方案6】:

Guava 现在提供了一个新的、一致的散列 API,它比 JDK 中提供的各种散列 API 更加用户友好。见Hashing Explained。对于文件,您可以轻松获取 MD5 和、CRC32(版本 14.0+)或许多其他哈希值:

HashCode md5 = Files.hash(file, Hashing.md5());
byte[] md5Bytes = md5.asBytes();
String md5Hex = md5.toString();

HashCode crc32 = Files.hash(file, Hashing.crc32());
int crc32Int = crc32.asInt();

// the Checksum API returns a long, but it's padded with 0s for 32-bit CRC
// this is the value you would get if using that API directly
long checksumResult = crc32.padToLong();

【讨论】:

【参考方案7】:

好的。我不得不补充。对于那些已经拥有 Spring 和 Apache Commons 依赖或计划添加它的人的一条线实现:

DigestUtils.md5DigestAsHex(FileUtils.readFileToByteArray(file))

仅适用于 Apache commons 选项(信用 @duleshi):

DigestUtils.md5Hex(FileUtils.readFileToByteArray(file))

希望这对某人有所帮助。

【讨论】:

我是DigestUtils.md5Hex(FileUtils.readFileToByteArray(file)) David Onter 基于公共的解决方案更好,因为它不会将整个文件读入内存。 至少对于Spring 5,您有DigestUtils.md5Digest(InputStream inputStream) 来计算MD5 摘要和DigestUtils.md5DigestAsHex(InputStream inputStream) 用于MD5 摘要方法的十六进制字符串表示,而无需将整个文件读入内存。【参考方案8】:

使用 Java 7 的没有第三方库的简单方法

String path = "your complete file path";
MessageDigest md = MessageDigest.getInstance("MD5");
md.update(Files.readAllBytes(Paths.get(path)));
byte[] digest = md.digest();

如果你需要打印这个字节数组。如下使用

System.out.println(Arrays.toString(digest));

如果您需要此摘要中的十六进制字符串。如下使用

String digestInHex = DatatypeConverter.printHexBinary(digest).toUpperCase();
System.out.println(digestInHex);

其中 DatatypeConverter 是 javax.xml.bind.DatatypeConverter

【讨论】:

为什么是toUpperCase @edgecaseberg 只是因为十六进制字符串在打印到控制台时看起来不错 我发现我需要使用 toLowerCase() 而不是 toUpperCase()。【参考方案9】:

我最近不得不为一个动态字符串执行此操作,MessageDigest 可以以多种方式表示哈希。要像使用 md5sum 命令那样获取文件的签名,我必须执行以下操作:

try 
   String s = "TEST STRING";
   MessageDigest md5 = MessageDigest.getInstance("MD5");
   md5.update(s.getBytes(),0,s.length());
   String signature = new BigInteger(1,md5.digest()).toString(16);
   System.out.println("Signature: "+signature);

 catch (final NoSuchAlgorithmException e) 
   e.printStackTrace();

这显然不能回答您关于如何专门针对文件执行此操作的问题,上述答案很好地解决了这个问题。我只是花了很多时间让总和看起来像大多数应用程序的显示它,并认为你可能会遇到同样的麻烦。

【讨论】:

签名是十六进制格式的摘要。正如你所说,我也发现十六进制表示可以在其他表示不起作用的地方工作。感谢您提出这个问题。 这很好,但.toString(16) 会丢弃前导零。 String.format("%032x", ...) 可能会更好。【参考方案10】:
public static void main(String[] args) throws Exception 
    MessageDigest md = MessageDigest.getInstance("MD5");
    FileInputStream fis = new FileInputStream("c:\\apache\\cxf.jar");

    byte[] dataBytes = new byte[1024];

    int nread = 0;
    while ((nread = fis.read(dataBytes)) != -1) 
        md.update(dataBytes, 0, nread);
    ;
    byte[] mdbytes = md.digest();
    StringBuffer sb = new StringBuffer();
    for (int i = 0; i < mdbytes.length; i++) 
        sb.append(Integer.toString((mdbytes[i] & 0xff) + 0x100, 16).substring(1));
    
    System.out.println("Digest(in hex format):: " + sb.toString());

或者您可以获得更多信息 http://www.asjava.com/core-java/java-md5-example/

【讨论】:

这个答案很好我花了 12 小时才使用这个答案来实现我想要的非常感谢 :)【参考方案11】:

我们使用的代码类似于上一篇文章中的代码

...
String signature = new BigInteger(1,md5.digest()).toString(16);
...

但是,请注意在这里使用BigInteger.toString(),因为它会截断前导零... (例如,试试s = "27",校验和应该是"02e74f10e0327ad868d138f2b4fdd6f0"

我赞成使用 Apache Commons Codec 的建议,我用它替换了我们自己的代码。

【讨论】:

哇,我正在研究一个问题,MD5 的东西在所有方面都能完美运行,除了一个文件只给我们一个 31 十六进制数字输出,并且 md5checksums 失败。截断前导 0 是一个巨大的痛苦......感谢您的留言。【参考方案12】:
public static String MD5Hash(String toHash) throws RuntimeException 
   try
       return String.format("%032x", // produces lower case 32 char wide hexa left-padded with 0
      new BigInteger(1, // handles large POSITIVE numbers 
           MessageDigest.getInstance("MD5").digest(toHash.getBytes())));
   
   catch (NoSuchAlgorithmException e) 
      // do whatever seems relevant
   

【讨论】:

【参考方案13】:

不依赖外部库的非常快速和干净的 Java 方法:

(如果需要,只需将 MD5 替换为 SHA-1、SHA-256、SHA-384 或 SHA-512)

public String calcMD5() throws Exception
        byte[] buffer = new byte[8192];
        MessageDigest md = MessageDigest.getInstance("MD5");

        DigestInputStream dis = new DigestInputStream(new FileInputStream(new File("Path to file")), md);
        try 
            while (dis.read(buffer) != -1);
        finally
            dis.close();
        

        byte[] bytes = md.digest();

        // bytesToHex-method
        char[] hexChars = new char[bytes.length * 2];
        for ( int j = 0; j < bytes.length; j++ ) 
            int v = bytes[j] & 0xFF;
            hexChars[j * 2] = hexArray[v >>> 4];
            hexChars[j * 2 + 1] = hexArray[v & 0x0F];
        

        return new String(hexChars);

【讨论】:

“bytesToHex”位可以替换为new BigInteger(1, bytes).toString(16)【参考方案14】:
String checksum = DigestUtils.md5Hex(new FileInputStream(filePath));

【讨论】:

【参考方案15】:

另一个实现:Fast MD5 Implementation in Java

String hash = MD5.asHex(MD5.getHash(new File(filename)));

【讨论】:

我在 JDK 1.8.0 242 中找不到方法MD5.asHex()【参考方案16】:

Standard Java Runtime Environment way:

public String checksum(File file) 
  try 
    InputStream fin = new FileInputStream(file);
    java.security.MessageDigest md5er =
        MessageDigest.getInstance("MD5");
    byte[] buffer = new byte[1024];
    int read;
    do 
      read = fin.read(buffer);
      if (read > 0)
        md5er.update(buffer, 0, read);
     while (read != -1);
    fin.close();
    byte[] digest = md5er.digest();
    if (digest == null)
      return null;
    String strDigest = "0x";
    for (int i = 0; i < digest.length; i++) 
      strDigest += Integer.toString((digest[i] & 0xff) 
                + 0x100, 16).substring(1).toUpperCase();
    
    return strDigest;
   catch (Exception e) 
    return null;
  

结果等于 linux md5sum 实用程序。

【讨论】:

【参考方案17】:

这里有一个简单的函数,它封装了 Sunil 的代码,因此它接受一个 File 作为参数。该函数不需要任何外部库,但它确实需要 Java 7。

import java.io.File;
import java.io.IOException;
import java.nio.file.Files;
import java.security.MessageDigest;
import java.security.NoSuchAlgorithmException;

import javax.xml.bind.DatatypeConverter;

public class Checksum 

    /**
     * Generates an MD5 checksum as a String.
     * @param file The file that is being checksummed.
     * @return Hex string of the checksum value.
     * @throws NoSuchAlgorithmException
     * @throws IOException
     */
    public static String generate(File file) throws NoSuchAlgorithmException,IOException 

        MessageDigest messageDigest = MessageDigest.getInstance("MD5");
        messageDigest.update(Files.readAllBytes(file.toPath()));
        byte[] hash = messageDigest.digest();

        return DatatypeConverter.printHexBinary(hash).toUpperCase();
    

    public static void main(String argv[]) throws NoSuchAlgorithmException, IOException 
        File file = new File("/Users/foo.bar/Documents/file.jar");          
        String hex = Checksum.generate(file);
        System.out.printf("hex=%s\n", hex);            
    



示例输出:

hex=B117DD0C3CBBD009AC4EF65B6D75C97B

【讨论】:

【参考方案18】:

这是一个方便的变体,它使用了 Java 9 中的 InputStream.transferTo() 和 Java 11 中的 OutputStream.nullOutputStream()。它不需要外部库,也不需要将整个文件加载到内存中。

public static String hashFile(String algorithm, File f) throws IOException, NoSuchAlgorithmException 
    MessageDigest md = MessageDigest.getInstance(algorithm);

    try(BufferedInputStream in = new BufferedInputStream((new FileInputStream(f)));
        DigestOutputStream out = new DigestOutputStream(OutputStream.nullOutputStream(), md)) 
        in.transferTo(out);
    

    String fx = "%0" + (md.getDigestLength()*2) + "x";
    return String.format(fx, new BigInteger(1, md.digest()));

hashFile("SHA-512", Path.of("src", "test", "resources", "some.txt").toFile());

返回

"e30fa2784ba15be37833d569280e2163c6f106506dfb9b07dde67a24bfb90da65c661110cf2c5c6f71185754ee5ae3fd83a5465c92f72abd888b03187229da29"

【讨论】:

【参考方案19】:

如果您使用 ANT 构建,这非常简单。将以下内容添加到您的 build.xml:

<checksum file="$jarFile" todir="$toDir"/>

其中 jarFile 是您要针对其生成 MD5 的 JAR,toDir 是您要放置 MD5 文件的目录。

More info here.

【讨论】:

【参考方案20】:

Google guava 提供了一个新的 API。在下面找到一个:

public static HashCode hash(File file,
            HashFunction hashFunction)
                     throws IOException

Computes the hash code of the file using hashFunction.

Parameters:
    file - the file to read
    hashFunction - the hash function to use to hash the data
Returns:
    the HashCode of all of the bytes in the file
Throws:
    IOException - if an I/O error occurs
Since:
    12.0

【讨论】:

【参考方案21】:
public static String getMd5OfFile(String filePath)

    String returnVal = "";
    try 
    
        InputStream   input   = new FileInputStream(filePath); 
        byte[]        buffer  = new byte[1024];
        MessageDigest md5Hash = MessageDigest.getInstance("MD5");
        int           numRead = 0;
        while (numRead != -1)
        
            numRead = input.read(buffer);
            if (numRead > 0)
            
                md5Hash.update(buffer, 0, numRead);
            
        
        input.close();

        byte [] md5Bytes = md5Hash.digest();
        for (int i=0; i < md5Bytes.length; i++)
        
            returnVal += Integer.toString( ( md5Bytes[i] & 0xff ) + 0x100, 16).substring( 1 );
        
     
    catch(Throwable t) t.printStackTrace();
    return returnVal.toUpperCase();

【讨论】:

以上是关于在 Java 中获取文件的 MD5 校验和的主要内容,如果未能解决你的问题,请参考以下文章

如何用java获取ftp服务器上文件的md5校验码?

如何在 PowerShell 中获取 MD5 校验和

MD5工具类,提供字符串MD5加密文件MD5值获取(校验)功能

获取txt md5值上传文件完整性校验

查看文件md5值

java 获取1G文件md5 要多久