php解决中英混排字符串截取

Posted 一拳超超人

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了php解决中英混排字符串截取相关的知识,希望对你有一定的参考价值。

当系统的字符存储设置了固定长度。

那存储的字符串如果过长,会造成程序异常或字符串被截断的情况。

如果通过php的系统函数substr()去截取字符串,遇到中文会造成截取异常(乱码字符)的情况。

改用mb_substr()去截取中英文,可以解决截取异常(乱码字符)的情况。

值得注意的是,substr()与mb_substr()的截取长度是有不同。

$str = '大家好-才是真的好';
echo substr($str,0,3);//出现截取异常,截取值:乱码字符
echo mb_substr($str,0,3);//截取正常,截取值:大家好 

而且,现实中系统设置字符的固定长度,通常是以英文字符,每个字符占1位为准的。

然而中文字符的占用是3位长度。

为了解决这个问题,可以判断传入字符串的每个字符在ASCII编码内的区域,根据区域不同位置使用不同的截取长度。

所以,通过自定义函数体去解决这个问题即可。

function common_substr($sourcestr, $cutlength) 
   $returnstr = '';
   $i = 0;
   $n = 0;
   $str_length = strlen ( $sourcestr ); //字符串的字节数 
   while ( ($n < $cutlength) and ($i <= $str_length) ) 
    $temp_str = substr ( $sourcestr, $i, 1 );
    $ascnum = ord ( $temp_str ); //得到字符串中第$i位字符的ascii码 
    if ($ascnum >= 224) //如果ascii位高与224,
        if($n+3>$cutlength)
            return $returnstr;
        
        $returnstr = $returnstr . substr ( $sourcestr, $i, 3 ); //根据utf-8编码规范,将3个连续的字符计为单个字符  
        $i = $i + 3; //实际byte计为3
        $n +=3;
        //echo $n."\\n";
     elseif ($ascnum >= 192) //如果ascii位高与192,
        if( $n+2>$cutlength)
            return $returnstr;
        
        $returnstr = $returnstr . substr ( $sourcestr, $i, 2 ); //根据utf-8编码规范,将2个连续的字符计为单个字符 
        $i = $i + 2; //实际byte计为2
        $n +=2;
     elseif ($ascnum >= 65 && $ascnum <= 90) //如果是大写字母,
        $returnstr = $returnstr . substr ( $sourcestr, $i, 1 );
        $i = $i + 1; //实际的byte数仍计1个
        $n ++; //但考虑整体美观,大写字母计成一个高位字符
    elseif ($ascnum >= 97 && $ascnum <= 122) 
        $returnstr = $returnstr . substr ( $sourcestr, $i, 1 );
        $i = $i + 1; //实际的byte数仍计1个
        $n ++; //但考虑整体美观,大写字母计成一个高位字符
     else //其他情况下,半角标点符号,
        $returnstr = $returnstr . substr ( $sourcestr, $i, 1 );
        $i = $i + 1; 
        $n = $n + 1;
    
   
   return $returnstr;

通过ASCII编码的规则,去判断每个字符在什么位置,去做定长截取。最后在拼接字符串。

这样截取的字符串,既满足了字符串限定的长度,也解决了截取过程中出现乱码字符的问题。

从而解决程序运行过程中出现的问题。

以上是关于php解决中英混排字符串截取的主要内容,如果未能解决你的问题,请参考以下文章

php解决中英混排字符串截取

php实现中英文混排字符串截取

泰山OFFICE技术讲座:由中英文混排,谈间距kerning

泰山OFFICE技术讲座:由中英文混排,谈间距kerning

php截取中文字符串,英文字符串,中英文字符串长度的方法

ASCIIUnicode和UTF-8编码的区别;中英文混合截取