PHP 替换 à->a、è->e 等特殊字符

Posted 2023-02-18

技术标签:

【中文标题】PHP 替换 à->a、è->e 等特殊字符【英文标题】：PHP replacing special characters like à->a, è->e 【发布时间】：2012-04-26 12:42:47 【问题描述】：

我有 php 文档 signup.php，它将内容从表单（在 form.php 文档中）保存到 mysql 库。当我想重新格式化输入内容时，问题就出现了。我想解码像 à->a 这样的 UTF-8 字符。

  $first_name=$_POST['first_name'];
  $last_name=$_POST['last_name'];
  $course=$_POST['course'];

  $chain="prêt-à-porter";

$pattern = array("'é'", "'è'", "'ë'", "'ê'", "'É'", "'È'", "'Ë'", "'Ê'", "'á'", "'à'", "'ä'", "'â'", "'å'", "'Á'", "'À'", "'Ä'", "'Â'", "'Å'", "'ó'", "'ò'", "'ö'", "'ô'", "'Ó'", "'Ò'", "'Ö'", "'Ô'", "'í'", "'ì'", "'ï'", "'î'", "'Í'", "'Ì'", "'Ï'", "'Î'", "'ú'", "'ù'", "'ü'", "'û'", "'Ú'", "'Ù'", "'Ü'", "'Û'", "'ý'", "'ÿ'", "'Ý'", "'ø'", "'Ø'", "'œ'", "'Œ'", "'Æ'", "'ç'", "'Ç'");

$replace = array('e', 'e', 'e', 'e', 'E', 'E', 'E', 'E', 'a', 'a', 'a', 'a', 'a', 'A', 'A', 'A', 'A', 'A', 'o', 'o', 'o', 'o', 'O', 'O', 'O', 'O', 'i', 'i', 'i', 'I', 'I', 'I', 'I', 'I', 'u', 'u', 'u', 'u', 'U', 'U', 'U', 'U', 'y', 'y', 'Y', 'o', 'O', 'a', 'A', 'A', 'c', 'C'); 

$chain = preg_replace($pattern, $replace, $chain);

echo $chain; // print pret-a-porter

$first_name =  preg_replace($pattern, $replace, $first_name);

echo $first_name; // does not change the input!?!

为什么它对 $chain 非常有效，但对于 $first_name 或 $last_name 不起作用？

我也试试

echo $first_name; // print áááááábéééééébšššš
$trans = array("á" => "a", "é" => "e", "š" => "s");
echo strtr("áááááábéééééébšššš", $trans); // print aaaaaabeeeeeebssss
echo strtr($first_name,$trans);  // print áááááábéééééébšššš

但正如您所见，问题是一样的！

【问题讨论】：

您的文件的编码是否正确？ $_POST 中的内容是否具有相同的编码？（即您为浏览器设置的用于显示页面的那个？）您可能还想为 preg_replace 设置 unicode 标志正如 phant0m 提到的，您需要密切关注所有编码。 POST 的默认编码是 ISO-8859-1，除非你明确告诉它你想要什么。 (accept-charset='UTF-8') 添加了几个示例函数:) 非常感谢您的帮助，当我在 【参考方案1】：

有一种更简单的方法可以做到这一点，使用 iconv - 从用户注释来看，这似乎是您想要做的：characters transliteration

// PHP.net User notes
<?php
    $string = "ʿABBĀSĀBĀD";

    echo iconv('UTF-8', 'ISO-8859-1//TRANSLIT', $string);
    // output: [nothing, and you get a notice]

    echo iconv('UTF-8', 'ISO-8859-1//IGNORE', $string);
    // output: ABBSBD

    echo iconv('UTF-8', 'ISO-8859-1//TRANSLIT//IGNORE', $string);
    // output: ABBASABAD
    // Yay! That's what I wanted!
?>

对您的字符编码非常认真，因此您在流程的所有阶段都保持相同的编码 - 前端、表单提交、源文件的编码。 PHP 和表单中的默认编码是 ISO-8859-1，在 PHP 5.4 之前它更改为 UTF8（终于！）。

您可以使用几个函数来获得创意。首先是来自 CakePHP 的变形器类，称为slug：

public static function slug($string, $replacement = '_') 
    $quotedReplacement = preg_quote($replacement, '/');

    $merge = array(
        '/[^\s\pLl\pLm\pLo\pLt\pLu\pNd]/mu' => ' ',
        '/\\s+/' => $replacement,
        sprintf('/^[%s]+|[%s]+$/', $quotedReplacement, $quotedReplacement) => '',
    );

    $map = self::$_transliteration + $merge;
    return preg_replace(array_keys($map), array_values($map), $string);

这取决于self::$_transliteration 数组，这与您在问题中所做的类似 - 您可以see the source for inflector on github。

另一个是我个人使用的函数，comes from here。

function slugify($text,$strict = false) 
    $text = html_entity_decode($text, ENT_QUOTES, 'UTF-8');
    // replace non letter or digits by -
    $text = preg_replace('~[^\\pL\d.]+~u', '-', $text);

    // trim
    $text = trim($text, '-');
    setlocale(LC_CTYPE, 'en_GB.utf8');
    // transliterate
    if (function_exists('iconv')) 
        $text = iconv('utf-8', 'us-ascii//TRANSLIT', $text);
    

    // lowercase
    $text = strtolower($text);
    // remove unwanted characters
    $text = preg_replace('~[^-\w.]+~', '', $text);
    if (empty($text)) 
        return 'empty_$';
    
    if ($strict) 
        $text = str_replace(".", "_", $text);
    
    return $text;

这些函数的作用是从任意文本输入音译并创建“slugs”，这在制作 Web 应用程序时在您的工具箱中非常有用。希望这会有所帮助！

【讨论】：

谢谢您的回答，问题是我没有在表单中添加“accept-charset="UTF-8"”。欢迎，我想所有这些功能都不是真正需要的 :) 但不妨看看。我继续使用我的函数，因为有了它我可以准确地确定我将用哪个字母替换某个字母。还有保留åäö吗？ @embe 使用 iso-8859-1 代替 ascii 可能吗？【参考方案2】：

字符串 $chain 与数组中的字符采用相同的字符编码 - 有可能，甚至很可能，$first_name 字符串采用不同的编码，因此这些字符不匹配。您可能想尝试使用多字节字符串函数。

试试 mb_convert_encoding。您可能还想尝试使用 HTML_ENTITIES 作为 to_encoding 参数，那么您不必担心字符将如何转换 - 它是非常可预测的。

假设您对该脚本的输入是 UTF-8 格式，这可能是一个不错的起点...

$first_name = mb_convert_encoding($first_name, "HTML-ENTITIES", "UTF-8");

【讨论】：

我试过了，但不是。回声 $first_name; // 打印 áááááábééééébšššš $first_name = mb_convert_encoding($first_name, "HTML-ENTITIES", "UTF-8");回声 $first_name; // 打印 áááááábéééééébšššš 谢谢您的回答，问题是我没有在表单中添加“accept-charset="UTF-8"”。【参考方案3】：

这是一种在应该丢弃什么和应该替换什么方面具有一定灵活性的方法。这就是我目前的做法。

$string = 'À 一些带有垃圾的字符串 Ĩ Ä ';

$replace = [
    '&lt;' => '', '&gt;' => '', '&#039;' => '', '&amp;' => '',
    '&quot;' => '', 'À' => 'A', 'Á' => 'A', 'Â' => 'A', 'Ã' => 'A', 'Ä' => 'Ae',
    '&Auml;' => 'A', 'Å' => 'A', 'Ā' => 'A', 'Ą' => 'A', 'Ă' => 'A', 'Æ' => 'Ae',
    'Ç' => 'C', 'Ć' => 'C', 'Č' => 'C', 'Ĉ' => 'C', 'Ċ' => 'C', 'Ď' => 'D', 'Đ' => 'D',
    'Ð' => 'D', 'È' => 'E', 'É' => 'E', 'Ê' => 'E', 'Ë' => 'E', 'Ē' => 'E',
    'Ę' => 'E', 'Ě' => 'E', 'Ĕ' => 'E', 'Ė' => 'E', 'Ĝ' => 'G', 'Ğ' => 'G',
    'Ġ' => 'G', 'Ģ' => 'G', 'Ĥ' => 'H', 'Ħ' => 'H', 'Ì' => 'I', 'Í' => 'I',
    'Î' => 'I', 'Ï' => 'I', 'Ī' => 'I', 'Ĩ' => 'I', 'Ĭ' => 'I', 'Į' => 'I',
    'İ' => 'I', 'Ĳ' => 'IJ', 'Ĵ' => 'J', 'Ķ' => 'K', 'Ł' => 'L', 'Ľ' => 'L',
    'Ĺ' => 'L', 'Ļ' => 'L', 'Ŀ' => 'L', 'Ñ' => 'N', 'Ń' => 'N', 'Ň' => 'N',
    'Ņ' => 'N', 'Ŋ' => 'N', 'Ò' => 'O', 'Ó' => 'O', 'Ô' => 'O', 'Õ' => 'O',
    'Ö' => 'Oe', '&Ouml;' => 'Oe', 'Ø' => 'O', 'Ō' => 'O', 'Ő' => 'O', 'Ŏ' => 'O',
    'Œ' => 'OE', 'Ŕ' => 'R', 'Ř' => 'R', 'Ŗ' => 'R', 'Ś' => 'S', 'Š' => 'S',
    'Ş' => 'S', 'Ŝ' => 'S', 'Ș' => 'S', 'Ť' => 'T', 'Ţ' => 'T', 'Ŧ' => 'T',
    'Ț' => 'T', 'Ù' => 'U', 'Ú' => 'U', 'Û' => 'U', 'Ü' => 'Ue', 'Ū' => 'U',
    '&Uuml;' => 'Ue', 'Ů' => 'U', 'Ű' => 'U', 'Ŭ' => 'U', 'Ũ' => 'U', 'Ų' => 'U',
    'Ŵ' => 'W', 'Ý' => 'Y', 'Ŷ' => 'Y', 'Ÿ' => 'Y', 'Ź' => 'Z', 'Ž' => 'Z',
    'Ż' => 'Z', 'Þ' => 'T', 'à' => 'a', 'á' => 'a', 'â' => 'a', 'ã' => 'a',
    'ä' => 'ae', '&auml;' => 'ae', 'å' => 'a', 'ā' => 'a', 'ą' => 'a', 'ă' => 'a',
    'æ' => 'ae', 'ç' => 'c', 'ć' => 'c', 'č' => 'c', 'ĉ' => 'c', 'ċ' => 'c',
    'ď' => 'd', 'đ' => 'd', 'ð' => 'd', 'è' => 'e', 'é' => 'e', 'ê' => 'e',
    'ë' => 'e', 'ē' => 'e', 'ę' => 'e', 'ě' => 'e', 'ĕ' => 'e', 'ė' => 'e',
    'ƒ' => 'f', 'ĝ' => 'g', 'ğ' => 'g', 'ġ' => 'g', 'ģ' => 'g', 'ĥ' => 'h',
    'ħ' => 'h', 'ì' => 'i', 'í' => 'i', 'î' => 'i', 'ï' => 'i', 'ī' => 'i',
    'ĩ' => 'i', 'ĭ' => 'i', 'į' => 'i', 'ı' => 'i', 'ĳ' => 'ij', 'ĵ' => 'j',
    'ķ' => 'k', 'ĸ' => 'k', 'ł' => 'l', 'ľ' => 'l', 'ĺ' => 'l', 'ļ' => 'l',
    'ŀ' => 'l', 'ñ' => 'n', 'ń' => 'n', 'ň' => 'n', 'ņ' => 'n', 'ŉ' => 'n',
    'ŋ' => 'n', 'ò' => 'o', 'ó' => 'o', 'ô' => 'o', 'õ' => 'o', 'ö' => 'oe',
    '&ouml;' => 'oe', 'ø' => 'o', 'ō' => 'o', 'ő' => 'o', 'ŏ' => 'o', 'œ' => 'oe',
    'ŕ' => 'r', 'ř' => 'r', 'ŗ' => 'r', 'š' => 's', 'ù' => 'u', 'ú' => 'u',
    'û' => 'u', 'ü' => 'ue', 'ū' => 'u', '&uuml;' => 'ue', 'ů' => 'u', 'ű' => 'u',
    'ŭ' => 'u', 'ũ' => 'u', 'ų' => 'u', 'ŵ' => 'w', 'ý' => 'y', 'ÿ' => 'y',
    'ŷ' => 'y', 'ž' => 'z', 'ż' => 'z', 'ź' => 'z', 'þ' => 't', 'ß' => 'ss',
    'ſ' => 'ss', 'ый' => 'iy', 'А' => 'A', 'Б' => 'B', 'В' => 'V', 'Г' => 'G',
    'Д' => 'D', 'Е' => 'E', 'Ё' => 'YO', 'Ж' => 'ZH', 'З' => 'Z', 'И' => 'I',
    'Й' => 'Y', 'К' => 'K', 'Л' => 'L', 'М' => 'M', 'Н' => 'N', 'О' => 'O',
    'П' => 'P', 'Р' => 'R', 'С' => 'S', 'Т' => 'T', 'У' => 'U', 'Ф' => 'F',
    'Х' => 'H', 'Ц' => 'C', 'Ч' => 'CH', 'Ш' => 'SH', 'Щ' => 'SCH', 'Ъ' => '',
    'Ы' => 'Y', 'Ь' => '', 'Э' => 'E', 'Ю' => 'YU', 'Я' => 'YA', 'а' => 'a',
    'б' => 'b', 'в' => 'v', 'г' => 'g', 'д' => 'd', 'е' => 'e', 'ё' => 'yo',
    'ж' => 'zh', 'з' => 'z', 'и' => 'i', 'й' => 'y', 'к' => 'k', 'л' => 'l',
    'м' => 'm', 'н' => 'n', 'о' => 'o', 'п' => 'p', 'р' => 'r', 'с' => 's',
    'т' => 't', 'у' => 'u', 'ф' => 'f', 'х' => 'h', 'ц' => 'c', 'ч' => 'ch',
    'ш' => 'sh', 'щ' => 'sch', 'ъ' => '', 'ы' => 'y', 'ь' => '', 'э' => 'e',
    'ю' => 'yu', 'я' => 'ya'
];

echo str_replace(array_keys($replace), $replace, $string);

【讨论】：

当你有很多行时最快的方法，例如【参考方案4】：

希望我能早点找到这个帖子。我制作的功能（花了我太长时间）如下：

function CheckLetters($field)
    $letters = [
        0 => "a à á â ä æ ã å ā",
        1 => "c ç ć č",
        2 => "e é è ê ë ę ė ē",
        3 => "i ī į í ì ï î",
        4 => "l ł",
        5 => "n ñ ń",
        6 => "o ō ø œ õ ó ò ö ô",
        7 => "s ß ś š",
        8 => "u ū ú ù ü û",
        9 => "w ŵ",
        10 => "y ŷ ÿ",
        11 => "z ź ž ż",
    ];
    foreach ($letters as &$values)
        $newValue = substr($values, 0, 1);
        $values = substr($values, 2, strlen($values));
        $values = explode(" ", $values);
        foreach ($values as &$oldValue)
            while (strpos($field,$oldValue) !== false)
                $field = preg_replace("/" . $oldValue . '/', $newValue, $field, 1);
            
        
    
    return $field;

【讨论】：

这是一段天才的代码。特别是用于搜索具有不一致数据的数据库。我用它来搜索一个充满用户提供数据的国家数据库。这确实有助于不添加错误编写的用户内容。我给了一个大大的赞。感谢您的反馈。错误输入的用户内容正是编写此内容的原因:) 只是一个旁注，函数开头多余的大括号应该被删除一段不错的代码，但是如果第一个字符是“脏”，它就不起作用。试试 CheckLetters('åäö'); @sboss 感谢您指出这一点。由while (strpos($field,$oldValue)) 引起，因为如果在字符串的索引 0 处找到字符，则 strpos 返回 0。通过进行Not Identical 比较修复。【参考方案5】：

CodeIgniter 方式：

$this->load->helper('text');

$string = convert_accented_characters($string);

此函数使用配套配置文件application/config/foreign_chars.php 来定义to 和from 数组以进行音译。

https://www.codeigniter.com/user_guide/helpers/text_helper.html#ascii_to_entities

【讨论】：

1- 该问题是在 2 年前提出的 2- 该问题的答案已被接受。 3- OP 没有提到 CI Framework 并且正在使用 plain php 所以你的答案与问题无关。在发布答案之前，请多加注意问题经过一天的挫折后，这对我有所帮助.. 对于 Codeigniter 来说确实是一个很好的答案 @EhsanT 1. 问题的年龄无关紧要。事实上，当人们为旧内容做出贡献而不是在前门等待发布重复的问题时，这个站点/资源会受益最大。 2. 接受的答案不会阻止任何人发布新答案。在获得绿色勾号后，永远不应阻止人们发帖。虽然可能不适合这种情况，但绿色勾号是可转移的。 3. OP 不需要发布库或框架的白名单或黑名单。未来的研究人员可能会使用 CI——这个答案会对他们有所帮助。很公平@mickmackusa 。【参考方案6】：

截至 PHP >= 5.4.0

$translatedString = transliterator_transliterate('Any-Latin; Latin-ASCII; [\u0080-\u7fff] remove', $string);

【讨论】：

【参考方案7】：

简单的功能。将 'Ábç Éfg' 等字符串转换为 'abc_efg'

/**
 * @param $str
 * @return mixed
 */
function sanitizeString($str) 
    $str = preg_replace('/[áàãâä]/ui', 'a', $str);
    $str = preg_replace('/[éèêë]/ui', 'e', $str);
    $str = preg_replace('/[íìîï]/ui', 'i', $str);
    $str = preg_replace('/[óòõôö]/ui', 'o', $str);
    $str = preg_replace('/[úùûü]/ui', 'u', $str);
    $str = preg_replace('/[ç]/ui', 'c', $str);
    $str = preg_replace('/[^a-z0-9]/i', '_', $str);
    $str = preg_replace('/_+/', '_', $str);

    return $str;

【讨论】：

这不保留大小写。【参考方案8】：

function correctedText($txt='')
  $ss = str_split($txt);
    
  for($i=0; $i<count($ss); $i++)
    $asciiNumber = ord($ss[$i]);// get the ascii dec of a single character
    
    // asciiNumber will be from the DEC column showing at https://www.ascii-code.com
    
    // capital letters only checked 
    if($asciiNumber >= 192 && $asciiNumber <= 197)$ss[$i] = 'A';
    elseif($asciiNumber == 198)$ss[$i] = 'AE';
    elseif($asciiNumber == 199)$ss[$i] = 'C';
    elseif($asciiNumber >= 200 && $asciiNumber <= 203)$ss[$i] = 'E';
    elseif($asciiNumber >= 204 && $asciiNumber <= 207)$ss[$i] = 'I';
    elseif($asciiNumber == 209)$ss[$i] = 'N';
    elseif($asciiNumber >= 210 && $asciiNumber <= 214)$ss[$i] = 'O';
    elseif($asciiNumber == 216)$ss[$i] = 'O';
    elseif($asciiNumber >= 217 && $asciiNumber <= 220)$ss[$i] = 'U';
    elseif($asciiNumber == 221)$ss[$i] = 'Y';
  
    
  $txt = implode('', $ss);
    
  return $txt;

【讨论】：

以上是关于PHP 替换 à->a、è->e 等特殊字符的主要内容，如果未能解决你的问题，请参考以下文章