如何在 Java 中将 UTF-8 转换为 US-Ascii

Posted

技术标签:

【中文标题】如何在 Java 中将 UTF-8 转换为 US-Ascii【英文标题】:How to convert UTF-8 to US-Ascii in Java 【发布时间】:2010-09-22 01:31:11 【问题描述】:

我们有一个系统,客户(主要是欧洲人)输入文本(UTF-8)必须分发到不同的系统,其中大多数接受 UTF-8,但现在我们还必须将文本分发到美国系统,该系统仅接受 US-Ascii 7 位

所以现在我们需要将所有欧洲字符翻译成最近的 US-Ascii。是否有任何 Java 库可以帮助完成这项任务?

现在我们刚刚开始添加一个翻译表,其中 Å (瑞典语 AA)->A 等等,如果我们没有找到任何匹配输入的字符,我们将记录它并替换为一个问号并尝试在下一个版本中修复它,但它似乎效率很低,并且其他人之前一定做过类似的事情。

【问题讨论】:

Encoding conversion in java 的可能重复项 您找到解决方案了吗?我的意思是这是 11 年前,但也许? 我们建立了自己的映射表,远未完成,但满足了我们的需求。 【参考方案1】:

您可以使用以下方法执行此操作(来自 this Core Java Technology Tech Tip 中的 NFD 示例):

public static String decompose(String s) 
    return java.text.Normalizer.normalize(s, java.text.Normalizer.Form.NFD).replaceAll("\\pInCombiningDiacriticalMarks+","");

【讨论】:

注意:在 scala 中,这将是: def decompose(s: String): String = java.text.Normalizer.normalize(s, java.text.Normalizer.Form.NFD).replaceAll(" \\pInCombiningDiacriticalMarks+", "")【参考方案2】:

响应answer given by Joe Liversedge,引用的Lucene ISOLatin1AccentFilter不再存在

已被org.apache.lucene.analysis.ASCIIFoldingFilter 取代:

如果存在,该类将不在前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中的字母、数字和符号 Unicode 字符转换为它们的 ASCII 等效字符。转换以下 Unicode 块中的字符;然而,只有那些具有合理 ASCII 替代的字符才会被转换。

仅供参考-

【讨论】:

【参考方案3】:

这似乎可行:

private synchronized static String utftoasci(String s)
  final StringBuffer sb = new StringBuffer( s.length() * 2 );

  final StringCharacterIterator iterator = new StringCharacterIterator( s );

  char ch = iterator.current();

  while( ch != StringCharacterIterator.DONE )
   if(Character.getNumericValue(ch)>0)
    sb.append( ch );
   else
    boolean f=false;
    if(Character.toString(ch).equals("Ê"))sb.append("E");f=true;
    if(Character.toString(ch).equals("È"))sb.append("E");f=true;
    if(Character.toString(ch).equals("ë"))sb.append("e");f=true;
    if(Character.toString(ch).equals("é"))sb.append("e");f=true;
    if(Character.toString(ch).equals("è"))sb.append("e");f=true;
    if(Character.toString(ch).equals("è"))sb.append("e");f=true;
    if(Character.toString(ch).equals("Â"))sb.append("A");f=true;
    if(Character.toString(ch).equals("ä"))sb.append("a");f=true;
    if(Character.toString(ch).equals("ß"))sb.append("ss");f=true;
    if(Character.toString(ch).equals("Ç"))sb.append("C");f=true;
    if(Character.toString(ch).equals("Ö"))sb.append("O");f=true;
    if(Character.toString(ch).equals("º"))sb.append("");f=true;
    if(Character.toString(ch).equals("Ó"))sb.append("O");f=true;
    if(Character.toString(ch).equals("ª"))sb.append("");f=true;
    if(Character.toString(ch).equals("º"))sb.append("");f=true;
    if(Character.toString(ch).equals("Ñ"))sb.append("N");f=true;
    if(Character.toString(ch).equals("É"))sb.append("E");f=true;
    if(Character.toString(ch).equals("Ä"))sb.append("A");f=true;
    if(Character.toString(ch).equals("Å"))sb.append("A");f=true;
    if(Character.toString(ch).equals("ä"))sb.append("a");f=true;
    if(Character.toString(ch).equals("Ü"))sb.append("U");f=true;
    if(Character.toString(ch).equals("ö"))sb.append("o");f=true;
    if(Character.toString(ch).equals("ü"))sb.append("u");f=true;
    if(Character.toString(ch).equals("á"))sb.append("a");f=true;
    if(Character.toString(ch).equals("Ó"))sb.append("O");f=true;
    if(Character.toString(ch).equals("É"))sb.append("E");f=true;
    if(!f)
     sb.append("?");
    
   
   ch = iterator.next();
  
  return sb.toString();
 

【讨论】:

【参考方案4】:

new String("½".getBytes("US-ASCII"))

【讨论】:

【参考方案5】:

这是我用的:

<?php
function remove_accent($str)  
#   http://www.php.net/manual/en/function.preg-replace.php#96586
$a = array('À', 'Á', 'Â', 'Ã', 'Ä', 'Å', 'Æ', 'Ç', 'È', 'É', 'Ê', 'Ë', 'Ì', 'Í', 'Î', 'Ï', 'Ð', 'Ñ', 'Ò', 'Ó', 'Ô', 'Õ', 'Ö', 'Ø', 'Ù', 'Ú', 'Û', 'Ü', 'Ý', 'ß', 'à', 'á', 'â', 'ã', 'ä', 'å', 'æ', 'ç', 'è', 'é', 'ê', 'ë', 'ì', 'í', 'î', 'ï', 'ñ', 'ò', 'ó', 'ô', 'õ', 'ö', 'ø', 'ù', 'ú', 'û', 'ü', 'ý', 'ÿ', 'Ā', 'ā', 'Ă', 'ă', 'Ą', 'ą', 'Ć', 'ć', 'Ĉ', 'ĉ', 'Ċ', 'ċ', 'Č', 'č', 'Ď', 'ď', 'Đ', 'đ', 'Ē', 'ē', 'Ĕ', 'ĕ', 'Ė', 'ė', 'Ę', 'ę', 'Ě', 'ě', 'Ĝ', 'ĝ', 'Ğ', 'ğ', 'Ġ', 'ġ', 'Ģ', 'ģ', 'Ĥ', 'ĥ', 'Ħ', 'ħ', 'Ĩ', 'ĩ', 'Ī', 'ī', 'Ĭ', 'ĭ', 'Į', 'į', 'İ', 'ı', 'IJ', 'ij', 'Ĵ', 'ĵ', 'Ķ', 'ķ', 'Ĺ', 'ĺ', 'Ļ', 'ļ', 'Ľ', 'ľ', 'Ŀ', 'ŀ', 'Ł', 'ł', 'Ń', 'ń', 'Ņ', 'ņ', 'Ň', 'ň', 'ʼn', 'Ō', 'ō', 'Ŏ', 'ŏ', 'Ő', 'ő', 'Œ', 'œ', 'Ŕ', 'ŕ', 'Ŗ', 'ŗ', 'Ř', 'ř', 'Ś', 'ś', 'Ŝ', 'ŝ', 'Ş', 'ş', 'Š', 'š', 'Ţ', 'ţ', 'Ť', 'ť', 'Ŧ', 'ŧ', 'Ũ', 'ũ', 'Ū', 'ū', 'Ŭ', 'ŭ', 'Ů', 'ů', 'Ű', 'ű', 'Ų', 'ų', 'Ŵ', 'ŵ', 'Ŷ', 'ŷ', 'Ÿ', 'Ź', 'ź', 'Ż', 'ż', 'Ž', 'ž', 'ſ', 'ƒ', 'Ơ', 'ơ', 'Ư', 'ư', 'Ǎ', 'ǎ', 'Ǐ', 'ǐ', 'Ǒ', 'ǒ', 'Ǔ', 'ǔ', 'Ǖ', 'ǖ', 'Ǘ', 'ǘ', 'Ǚ', 'ǚ', 'Ǜ', 'ǜ', 'Ǻ', 'ǻ', 'Ǽ', 'ǽ', 'Ǿ', 'ǿ'); 
$b = array('A', 'A', 'A', 'A', 'A', 'A', 'AE', 'C', 'E', 'E', 'E', 'E', 'I', 'I', 'I', 'I', 'D', 'N', 'O', 'O', 'O', 'O', 'O', 'O', 'U', 'U', 'U', 'U', 'Y', 's', 'a', 'a', 'a', 'a', 'a', 'a', 'ae', 'c', 'e', 'e', 'e', 'e', 'i', 'i', 'i', 'i', 'n', 'o', 'o', 'o', 'o', 'o', 'o', 'u', 'u', 'u', 'u', 'y', 'y', 'A', 'a', 'A', 'a', 'A', 'a', 'C', 'c', 'C', 'c', 'C', 'c', 'C', 'c', 'D', 'd', 'D', 'd', 'E', 'e', 'E', 'e', 'E', 'e', 'E', 'e', 'E', 'e', 'G', 'g', 'G', 'g', 'G', 'g', 'G', 'g', 'H', 'h', 'H', 'h', 'I', 'i', 'I', 'i', 'I', 'i', 'I', 'i', 'I', 'i', 'IJ', 'ij', 'J', 'j', 'K', 'k', 'L', 'l', 'L', 'l', 'L', 'l', 'L', 'l', 'l', 'l', 'N', 'n', 'N', 'n', 'N', 'n', 'n', 'O', 'o', 'O', 'o', 'O', 'o', 'OE', 'oe', 'R', 'r', 'R', 'r', 'R', 'r', 'S', 's', 'S', 's', 'S', 's', 'S', 's', 'T', 't', 'T', 't', 'T', 't', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'W', 'w', 'Y', 'y', 'Y', 'Z', 'z', 'Z', 'z', 'Z', 'z', 's', 'f', 'O', 'o', 'U', 'u', 'A', 'a', 'I', 'i', 'O', 'o', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'U', 'u', 'A', 'a', 'AE', 'ae', 'O', 'o'); 
return str_replace($a, $b, $str); 


function SEOify($i)
#   http://php.ca/manual/en/function.preg-replace.php#90316
$o          = $i;
$o          = html_entity_decode($o,ENT_COMPAT,'UTF-8');
$o          = remove_accent(trim($o)); 
$patterns   = array( "([\40])" , "([^a-zA-Z0-9_-])", "(-2,)" ); 
$replacers  = array("-", "", "-"); 
$o          = preg_replace($patterns, $replacers, $o);
return $o;

?>

【讨论】:

【参考方案6】:

这通常在搜索应用程序中很有用。请参阅相应的 Lucene ISOLatin1AccentFilter 实现。这并不是真正为插入随机本地实现而设计的,但可以解决问题。

【讨论】:

【参考方案7】:

您可以将文本转换为规范化形式 D,而不是创建自己的表格,其中字符表示为基本字符加上变音符号(例如,“á”将替换为“a”,后跟 a结合尖锐的口音)。然后你可以去掉所有不是 ASCII 字母的东西。

这些表仍然存在,但现在是来自 Unicode 标准的表。

您也可以尝试使用 NFKD 代替 NFD,以捕获更多病例。

参考资料:

http://unicode.org/reports/tr15/ http://www.siao2.com/2005/02/19/376617.aspx http://www.siao2.com/2007/05/14/2629747.aspx

【讨论】:

相关答案:***.com/questions/225471/…【参考方案8】:

uni2ascii 程序是用 C 语言编写的,但您可以毫不费力地将其转换为 Java。它包含一个大的近似值表(隐含在 switch-case 语句中)。

请注意,没有普遍接受的近似值:德国人希望您将 Ä 替换为 AE,芬兰人和瑞典人更喜欢 A。您的 Å 示例也不明显:瑞典人可能会放弃戒指并使用A,但丹麦人和挪威人可能更喜欢历史上更正确的 AA。

【讨论】:

地区差异的优秀例子。【参考方案9】:

有一些内置函数可以做到这一点。涉及的主要类是CharsetEncoder,它是nio 包的一部分。更简单的方法是String.getBytes(Charset),可以发送到ByteArrayOutputStream

【讨论】:

这没有解决从 'é' 到 'e' 的规范化。

以上是关于如何在 Java 中将 UTF-8 转换为 US-Ascii的主要内容,如果未能解决你的问题,请参考以下文章

在Java(JSP)中将十进制NCR代码转换为UTF-8

在 Java 中将国家/地区代码转换为时区

在java中将UTF-16 unicode字符转换为UTF-8

在 Java 中将字符串转换为 ByteBuffer

如何在c#中将字符串“2.000,65”转换为十进制2,000.65(en-Us)文化[关闭]

如何在 Python 中将文件转换为 utf-8?