获取文件字符集后转换成指定编码

Posted 九人稚。

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了获取文件字符集后转换成指定编码相关的知识,希望对你有一定的参考价值。

package com.jiaotd.file;

import java.io.BufferedInputStream;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.nio.file.Files;
import java.nio.file.StandardCopyOption;

/**
 * @author [email protected]
 * @since 2016年3月24日 下午4:43:18
 */
public class ConvertCharacter {

    /**
     * 遍历文件夹,获取文件
     * 
     * @author [email protected]
     * @since 2016年3月24日 下午4:49:09
     * @param file
     * @throws Exception
     */
    public static void checkout(File file) throws Exception {
        if (file.exists()) {
            if (file.isDirectory()) {
                if(!file.getName().startsWith(".svn")){
                    File[] listFiles = file.listFiles();
                    for (File subfile : listFiles) {
                        if (subfile.isFile()) {
                            // 进行文件操作
                            convertCharacter(subfile);
                        } else if (subfile.isDirectory()) {
                            checkout(subfile);
                        }
                    }
                }
            } else {
                convertCharacter(file);
            }
        }
    }

    /**
     * 转换字符编码
     * 
     * @author [email protected]
     * @since 2016年3月24日 下午4:49:53
     * @param file
     * @throws IOException
     */
    public static void convertCharacter(File file) throws IOException {
        if(file.getName().endsWith(".gif") || file.getName().endsWith(".jpg") || file.getName().endsWith(".class") 
                || file.getName().endsWith(".png") || file.getName().endsWith(".jar") || file.getName().endsWith(".xml")
                || file.getName().endsWith(".properties") || file.getName().endsWith(".jsp") ){
            return;
        }
        // 文件为空时,Files.move会报错
        if (file.length() > 0) {
            String chartset = getFilecharset(file);
            if("GBK".equals(chartset)){
                return;
            }
            InputStreamReader isr = new InputStreamReader(new FileInputStream(file), chartset);// 获取文件格式
            BufferedReader reader = new BufferedReader(isr);

            File out = new File(file.getAbsolutePath() + ".bak");
            OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream(out), "GBK");
            BufferedWriter bw = new BufferedWriter(osw);

            String s = "";
            while ((s = reader.readLine()) != null) {
                osw.write(s+ "\r\n");
            }
            bw.close();
            osw.close();
            reader.close();
            isr.close();
            // StandardCopyOption.ATOMIC_MOVE 将本操作标记为原子性操作,要么完成移动,要么源文件保持原来位置
            Files.move(out.toPath(), file.toPath(),    StandardCopyOption.ATOMIC_MOVE);
            System.out.println(out.getName());
        }
    }

    /**
     * 获取文件编码
     * @author [email protected]
     * @since 2016年3月24日 下午6:01:44
     * @param sourceFile
     * @return
     */
    public static String getFilecharset(File sourceFile) {
        String charset = "GBK";
        byte[] first3Bytes = new byte[3];
        BufferedInputStream bis = null; 
        try {
            boolean checked = false;
            bis = new BufferedInputStream(new FileInputStream(sourceFile));
            bis.mark(0);
            int read = bis.read(first3Bytes, 0, 3);
            if (read == -1) {
                return charset; // 文件编码为 ANSI
            } else if (first3Bytes[0] == (byte) 0xFF
                    && first3Bytes[1] == (byte) 0xFE) {
                charset = "UTF-16LE"; // 文件编码为 Unicode
                checked = true;
            } else if (first3Bytes[0] == (byte) 0xFE
                    && first3Bytes[1] == (byte) 0xFF) {
                charset = "UTF-16BE"; // 文件编码为 Unicode big endian
                checked = true;
            } else if (first3Bytes[0] == (byte) 0xEF
                    && first3Bytes[1] == (byte) 0xBB
                    && first3Bytes[2] == (byte) 0xBF) {
                charset = "UTF-8"; // 文件编码为 UTF-8
                checked = true;
            }
            bis.reset();
            if (!checked) {
                while ((read = bis.read()) != -1) {
                    if (read >= 0xF0)
                        break;
                    if (0x80 <= read && read <= 0xBF) // 单独出现BF以下的,也算是GBK
                        break;
                    if (0xC0 <= read && read <= 0xDF) {
                        read = bis.read();
                        if (0x80 <= read && read <= 0xBF) // 双字节 (0xC0 - 0xDF)
                            // (0x80
                            // - 0xBF),也可能在GB编码内
                            continue;
                        else
                            break;
                    } else if (0xE0 <= read && read <= 0xEF) {// 也有可能出错,但是几率较小
                        read = bis.read();
                        if (0x80 <= read && read <= 0xBF) {
                            read = bis.read();
                            if (0x80 <= read && read <= 0xBF) {
                                charset = "UTF-8";
                                break;
                            } else
                                break;
                        } else
                            break;
                    }
                }
            }
            bis.close();
        } catch (Exception e) {
            e.printStackTrace();
        }finally{
            if(null != bis){
                try {
                    bis.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }
        return charset;
    }

    public static void main(String[] args) throws Exception {
//        File file = new File("F:/WorkSpace/MyEclipse/asiainfo/ol_java/");
         File file = new File("F:/MyProject/HttpUtil.java");
        checkout(file);
        // convertCharacter(file);

    }
}

 

以上是关于获取文件字符集后转换成指定编码的主要内容,如果未能解决你的问题,请参考以下文章

用java获取URL路径时出现非法字符

linux编码转换问题

ASP.NET 几种编码转换成汉字

python的字符转换常见bug

java中数字转换成指定的字符串要怎么转

如何在 Linux 中将文件编码转换为 UTF-8