Unity拓展工具批量更改脚本文件的编码格式（unity中脚本文件的编码格式从ANSI转换到UTF8出现乱码）

Posted 2023-04-04 freeerM

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Unity拓展工具批量更改脚本文件的编码格式（unity中脚本文件的编码格式从ANSI转换到UTF8出现乱码）相关的知识，希望对你有一定的参考价值。

提示：记录点学习过程中的简单成果，方便日后回顾也希望对读者有点小帮助

文章目录

前言
一、实现思路
二、基础知识
1.编码格式
2.Unity脚本转码注意事项

三、具体代码实现
参考链接
总结

前言

在一些游戏项目中，有的项目或许属于前期的某种设计缺陷导致没有string表，需要在脚本文件中写汉字。这样操作一般是不允许的，是因为在代码中写汉字容易因为文件编码的问题导致在真机包出现错误。由于文件的累积最后需要更改脚本文件的数量甚是庞大，需要消耗大量时间，于是自己第一次学习写了这个拓展工具。

一、实现思路

主要是需要先找到我们想要的更改编码的文件，判断编码当前的编码格式是否是我们目标编码格式，不一致就需要进行更改。

二、基础知识

1.编码格式

编码格式	解释
ASCII	ASCII全名是American Standard Code for Information Interchange，叫做“美国信息交换标准码”。ASCII码中，一个英文字母（不分大小写）占一个字节的空间，一个中文汉字占两个字节的空间。ASCII码是目前最普及的一种字符编码。
ANSI	ANSI编码是一种对ASCII码的拓展：ANSI编码用0x00~0x7f （即十进制下的0到127）范围的1 个字节来表示 1 个英文字符，超出一个字节的 0x80~0xFFFF 范围来表示其他语言的其他字符。也就是说，ANSI码仅在前128（0-127）个与ASCII码相同，之后的字符全是某个国家语言的所有字符。
Unicode	ASCII码叫做“美国信息交换标准码”，一个英文字母（不分大小写）占一个字节的空间，一个中文汉字占两个字节的空间。ASCII码是目前最普及的一种字符编码，只适用于美帝，要是用在美帝之外的国家，就不能满足需求了。还有ANSI编码其实包括很多编码：中国制定了GB2312编码，用来把中文编进去另外，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，各国有各国的标准。受制于当时的条件，不同语言之间的ANSI码之间不能互相转换，这就会导致在多语言混合的文本中会有乱码。
UTF8	为了解决不同国家ANSI编码的冲突问题，Unicode应运而生：如果全世界每一个符号都给予一个独一无二的编码，那么乱码问题就会消失。这就是Unicode，就像它的名字都表示的，这是一种所有符号的编码。Unicode标准也在不断发展，但最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。现代操作系统和大多数编程语言都直接支持Unicode。但是问题在于，原本可以用一个字节存储的英文字母在Unicode里面必须存两个字节（规则就是在原来英文字母对应ASCII码前面补0），这就产生了浪费。那么有没有一种既能消除乱码，又能避免浪费的编码方式呢？答案就是UTF-8！

2.Unity脚本转码注意事项

Unity脚本文件在转码的时候我们需要先去读取文件的文本内容，然后再去将读到的内容使用UTF8的编码格式写入文件。值得注意的是这里面如果是因为中文乱码的话就可以使用Encoding.GetEncoding(“Gb3212”)的编码格式去读，否则你读到的本身就是乱码，那么重新写入也只会是乱码。

三、具体代码实现

using Sirenix.OdinInspector.Editor;
using UnityEngine;
using System.IO;
using UnityEditor;
using System.Text;
using System;

namespace Game.Editor 

    public class UTF_8 : OdinEditorWindow
    
        private string Path = "Assets/Code/Game@hotfix/Window";
        private string Result;
        private string Finish;
        private int FileCount;
        private int ChangeCount;
        private Vector2 scrollPos;

        [MenuItem("Tools/UTF-8编码", false)]
        public static void Open()
        
            var window = (UTF_8)EditorWindow.GetWindow(typeof(UTF_8), false, "UTF-8编码");
            window.maxSize = window.minSize = new Vector2(400, 400);
            window.Show();
        

        private void OnGUI()
        
            scrollPos = GUILayout.BeginScrollView(scrollPos);
            
                GUILayout.BeginVertical();
                
                    GUILayout.Space(20);
                    GUILayout.BeginHorizontal();
                    
                        GUILayout.Label("File_Path");
                        GUILayout.FlexibleSpace();
                        Path = GUILayout.TextField(Path, GUILayout.Width(300));
                    
                    GUILayout.EndHorizontal();
                    GUILayout.Space(10);

                    GUILayout.Space(30);
                    
                    if (GUILayout.Button("生成"))
                    
                        FileCount = 0;
                        ChangeCount = 0;
                        GetAllFile();
                    
                    if (GUILayout.Button("清空log"))
                    
                        Clear();
                    
                    GUILayout.Space(30);
                    GUILayout.Label(Finish);
                    GUILayout.Space(10);
                    GUILayout.Label(Result);
                
                GUILayout.EndVertical();
            
            GUILayout.EndScrollView();
        

        private void GetAllFile()
        
            if (Path == null || Path == "")
            
                Result = "路径不可以为null";
            
            //获取指定路径下面的所有资源文件  
            if (Directory.Exists(Path))
            
                DirectoryInfo direction = new DirectoryInfo(Path);
                FileInfo[] files = direction.GetFiles("*", SearchOption.AllDirectories);

                for (int i = 0; i < files.Length; i++)
                
                    if (files[i].Name.EndsWith(".meta"))
                    
                        continue;
                    
                    Encoding _encoding = GetType(files[i].OpenRead());
                    if (_encoding != Encoding.UTF8)
                    
                        var s = File.ReadAllText(files[i].FullName, Encoding.GetEncoding("GB2312"));

                        File.WriteAllText(files[i].FullName, s, new UTF8Encoding(false));
                        ChangeCount++;
                    

                    FileCount++;
                
                Result = $"总共找到FileCount个cs文件     ChangeCount个cs文件的编码格式被修改成了UTF-8";
                Finish = "完成";
            
            else
            
                Result = "未找到此路径";
            
        
        private static System.Text.Encoding GetType(FileStream fs)
        
            byte[] Unicode = new byte[]  0xFF, 0xFE, 0x41 ;
            byte[] UnicodeBIG = new byte[]  0xFE, 0xFF, 0x00 ;
            byte[] UTF8 = new byte[]  0xEF, 0xBB, 0xBF ; //带BOM
            Encoding reVal = Encoding.Default;

            BinaryReader r = new BinaryReader(fs, System.Text.Encoding.Default);
            int i;
            int.TryParse(fs.Length.ToString(), out i);
            byte[] ss = r.ReadBytes(i);
            if (IsUTF8Bytes(ss) || (ss[0] == 0xEF && ss[1] == 0xBB && ss[2] == 0xBF))
            
                reVal = Encoding.UTF8;
            
            else if (ss[0] == 0xFE && ss[1] == 0xFF && ss[2] == 0x00)
            
                reVal = Encoding.BigEndianUnicode;
            
            else if (ss[0] == 0xFF && ss[1] == 0xFE && ss[2] == 0x41)
            
                reVal = Encoding.Unicode;
            
            r.Close();
            return reVal;

        
        /// <summary>
        /// 判断是否是不带 BOM 的 UTF8 格式
        /// </summary>
        /// <param name="data"></param>
        /// <returns></returns>
        private static bool IsUTF8Bytes(byte[] data)
        
            int charByteCounter = 1;
            //计算当前正分析的字符应还有的字节数
            byte curByte; //当前分析的字节.
            for (int i = 0; i < data.Length; i++)
            
                curByte = data[i];
                if (charByteCounter == 1)
                
                    if (curByte >= 0x80)
                    
                        //判断当前
                        while (((curByte <<= 1) & 0x80) != 0)
                        
                            charByteCounter++;
                        
                        //标记位首位若为非0 则至少以2个1开始 如:110XXXXX...........1111110X
                        if (charByteCounter == 1 || charByteCounter > 6)
                        
                            return false;
                        
                    
                
                else
                
                    //若是UTF-8 此时第一位必须为1
                    if ((curByte & 0xC0) != 0x80)
                    
                        return false;
                    
                    charByteCounter--;
                
            
            if (charByteCounter > 1)
            
                throw new Exception("非预期的byte格式");
            
            return true;
        
        private void Clear()
        
            Result = null;
            Finish = null;

参考链接

链接: 字符编码ANSI和ASCII区别、Unicode和UTF-8区别

总结

如果有大佬看到还望指点一二！！！

批量更改文件编码格式 utf8到gb2312

一.查看文件编码

　　file name；//可以显现文件的编码格式(有的系统不可以)

二.文件编码转换

　　使用iconv转换,

　　iconv -f encoding -t encoding inputfile;

例如：iconv -f utf-8 -t gb2312 file1;

用法：iconv [选项..] [文件]

-f, 原始编码

-t，输出编码

信息：

-l，---list 列举系统所有安装的已知字符集

输出控制：

-c 从输出中忽略无效的字符

-o ---output 输出文件

实例：遍历目录下的所有文件，改变utf8编码到gb2312

for i in `find ./ -type f -name ‘*.txt‘`;

echo $i

echo ${i}.tmp

iconv -f utf-8 -t gb2312 $i>${i}.tmp

mv ${i}.tmp $i;

done

问题记录：

iconv转换失败，脚本主机没有暗转gb2312编码，只有gbk，导致一开始转化老是失败。

转载1：

#!/bin/bash
#1.变量定义
directory="/home/wzy/Downloads/execl"
f_encoding="utf-8"
t_encoding="gbk"
#2.遍历子目录
for dir in `ls $directory`
do
if [ -d $directory/$dir ]
then
#3.遍历子目录的文件
for file in `ls $directory/$dir`
do
if [ -e $directory/$dir/$file ]
then
#4.文件类型转换
iconv -f $f_encoding -t $t_encoding $directory/$dir/$file -o $directory/$dir/iconv.$file
#5.删除原始文件
if [ $? -eq 0 ]
then
rm $directory/$dir/$file
fi
fi
done
fi
done

以上是关于Unity拓展工具批量更改脚本文件的编码格式（unity中脚本文件的编码格式从ANSI转换到UTF8出现乱码）的主要内容，如果未能解决你的问题，请参考以下文章

Unity拓展工具批量更改脚本文件的编码格式 （unity中脚本文件的编码格式从ANSI转换到UTF8出现乱码）

文章目录

前言