编码问题,unicode,string

Posted lin-0410

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了编码问题,unicode,string相关的知识,希望对你有一定的参考价值。

转:JAVA方法 字符串与unicode的相互转换_OkidoGreen的博客-CSDN博客

unicode编码简而言之就是将每一个字符用16位2进制数标识。但是通常都用4位的16进制数标识。 
例如: 
1)中文字符串"你好"的unicode码为:\\u4f60\\u597d; 
2)英文字符串"ab"的unicode码为:\\u0061\\u0062; 
其中\\u是标识unicode码用的,后面的4位16进制数则是对应字符的unicode码。 

unicode码在J2EE项目中应用广泛,java对unicode码提供了很好的支持。例如国际化,则是unicode的经典运用。 
那么unicode的编码规则具体是什么,如何用程序实现? 

1、unicode编码规则 

   unicode码对每一个字符用4位16进制数表示。具体规则是:将一个字符(char)的高8位与低8位分别取出,转化为16进制数, 
   如果转化的16进制数的长度不足2位,则在其后补0,然后将高、低8位转成的16进制字符串拼接起来并在前面补上"\\u" 即可。 
   
2、转码程序 

1)字符串转unicode 

/** 
* 将字符串转成unicode 
* @param str 待转字符串 
* @return unicode字符串 
*/ 
public String convert(String str) 
 
str = (str == null ? "" : str); 
String tmp; 
StringBuffer sb = new StringBuffer(1000); 
char c; 
int i, j; 
sb.setLength(0); 
for (i = 0; i < str.length(); i++) 
 
c = str.charAt(i); 
sb.append("\\\\u"); 
j = (c >>>8); //取出高8位 
tmp = Integer.toHexString(j); 
if (tmp.length() == 1) 
sb.append("0"); 
sb.append(tmp); 
j = (c & 0xFF); //取出低8位 
tmp = Integer.toHexString(j); 
if (tmp.length() == 1) 
sb.append("0"); 
sb.append(tmp); 

 
return (new String(sb)); 
 


2)unicode转成字符串,与上述过程反向操作即可 
/** 
* 将unicode 字符串 
* @param str 待转字符串 
* @return 普通字符串 
*/ 
public String revert(String str) 
 
str = (str == null ? "" : str); 
if (str.indexOf("\\\\u") == -1)//如果不是unicode码则原样返回 
return str; 

StringBuffer sb = new StringBuffer(1000); 

for (int i = 0; i < str.length() - 6;) 
 
String strTemp = str.substring(i, i + 6); 
String value = strTemp.substring(2); 
int c = 0; 
for (int j = 0; j < value.length(); j++) 
 
char tempChar = value.charAt(j); 
int t = 0; 
switch (tempChar) 
 
case 'a': 
t = 10; 
break; 
case 'b': 
t = 11; 
break; 
case 'c': 
t = 12; 
break; 
case 'd': 
t = 13; 
break; 
case 'e': 
t = 14; 
break; 
case 'f': 
t = 15; 
break; 
default: 
t = tempChar - 48; 
break; 
 

c += t * ((int) Math.pow(16, (value.length() - j - 1))); 
 
sb.append((char) c); 
i = i + 6; 
 
return sb.toString(); 

// Method 2 :

[java]  view plain  copy  print ?
  1. java环境安装后jdk的bin目录有个native2ascii.exe可以实现类似的功能,但是通过java代码也可以实现同样的功能。  
  2. 字符串转换unicode java方法代码片段:  
  3. 复制代码 代码如下:  
  4.   
  5. /** 
  6.  * 字符串转换unicode 
  7.  */  
  8. public static String string2Unicode(String string)   
  9.    
  10.     StringBuffer unicode = new StringBuffer();  
  11.    
  12.     for (int i = 0; i < string.length(); i++)   
  13.    
  14.         // 取出每一个字符  
  15.         char c = string.charAt(i);  
  16.    
  17.         // 转换为unicode  
  18.         unicode.append("\\\\u" + Integer.toHexString(c));  
  19.       
  20.    
  21.     return unicode.toString();  
  22.   
  23. unicode转换字符串java方法代码片段:  
  24. 复制代码 代码如下:  
  25.   
  26. /** 
  27.  * unicode 转字符串 
  28.  */  
  29. public static String unicode2String(String unicode)   
  30.    
  31.     StringBuffer string = new StringBuffer();  
  32.    
  33.     String[] hex = unicode.split("\\\\\\\\u");  
  34.    
  35.     for (int i = 1; i < hex.length; i++)   
  36.    
  37.         // 转换出每一个代码点  
  38.         int data = Integer.parseInt(hex[i], 16);  
  39.    
  40.         // 追加成string  
  41.         string.append((char) data);  
  42.       
  43.    
  44.     return string.toString();  
  45.   
  46. 测试java代码片段:  
  47. 复制代码 代码如下:  
  48.   
  49. public static void main(String[] args)   
  50.     String test = "最代码网站地址:www.zuidaima.com";  
  51.    
  52.     String unicode = string2Unicode(test);  
  53.        
  54.     String string = unicode2String(unicode) ;  
  55.        
  56.     System.out.println(unicode);  
  57.        
  58.     System.out.println(string);  
  59.    
  60.   
  61. 输出结果:  
  62. \\u6700\\u4ee3\\u7801\\u7f51\\u7ad9\\u5730\\u5740\\u3a\\u77\\u77\\u77\\u2e\\u7a\\u75\\u69\\u64\\u61\\u69\\u6d\\u61\\u2e\\u63\\u6f\\u6d  

以上是关于编码问题,unicode,string的主要内容,如果未能解决你的问题,请参考以下文章

python头疼的编码问题

String 字符串中含有 Unicode 编码时,转为UTF-8

java里关于String的编码与解码

Cstring与char*String转Cstring(unicode编码)

python---字符编码

PHP - json_encode(string, JSON_UNESCAPED_UNICODE) 不转义捷克字符