php解决中英混排字符串截取
Posted 一拳超超人
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了php解决中英混排字符串截取相关的知识,希望对你有一定的参考价值。
当系统的字符存储设置了固定长度。
那存储的字符串如果过长,会造成程序异常或字符串被截断的情况。
如果通过php的系统函数substr()去截取字符串,遇到中文会造成截取异常(乱码字符)的情况。
改用mb_substr()去截取中英文,可以解决截取异常(乱码字符)的情况。
值得注意的是,substr()与mb_substr()的截取长度是有不同。
$str = '大家好-才是真的好';
echo substr($str,0,3);//出现截取异常,截取值:乱码字符
echo mb_substr($str,0,3);//截取正常,截取值:大家好
而且,现实中系统设置字符的固定长度,通常是以英文字符,每个字符占1位为准的。
然而中文字符的占用是3位长度。
为了解决这个问题,可以判断传入字符串的每个字符在ASCII编码内的区域,根据区域不同位置使用不同的截取长度。
所以,通过自定义函数体去解决这个问题即可。
function common_substr($sourcestr, $cutlength)
$returnstr = '';
$i = 0;
$n = 0;
$str_length = strlen ( $sourcestr ); //字符串的字节数
while ( ($n < $cutlength) and ($i <= $str_length) )
$temp_str = substr ( $sourcestr, $i, 1 );
$ascnum = ord ( $temp_str ); //得到字符串中第$i位字符的ascii码
if ($ascnum >= 224) //如果ascii位高与224,
if($n+3>$cutlength)
return $returnstr;
$returnstr = $returnstr . substr ( $sourcestr, $i, 3 ); //根据utf-8编码规范,将3个连续的字符计为单个字符
$i = $i + 3; //实际byte计为3
$n +=3;
//echo $n."\\n";
elseif ($ascnum >= 192) //如果ascii位高与192,
if( $n+2>$cutlength)
return $returnstr;
$returnstr = $returnstr . substr ( $sourcestr, $i, 2 ); //根据utf-8编码规范,将2个连续的字符计为单个字符
$i = $i + 2; //实际byte计为2
$n +=2;
elseif ($ascnum >= 65 && $ascnum <= 90) //如果是大写字母,
$returnstr = $returnstr . substr ( $sourcestr, $i, 1 );
$i = $i + 1; //实际的byte数仍计1个
$n ++; //但考虑整体美观,大写字母计成一个高位字符
elseif ($ascnum >= 97 && $ascnum <= 122)
$returnstr = $returnstr . substr ( $sourcestr, $i, 1 );
$i = $i + 1; //实际的byte数仍计1个
$n ++; //但考虑整体美观,大写字母计成一个高位字符
else //其他情况下,半角标点符号,
$returnstr = $returnstr . substr ( $sourcestr, $i, 1 );
$i = $i + 1;
$n = $n + 1;
return $returnstr;
通过ASCII编码的规则,去判断每个字符在什么位置,去做定长截取。最后在拼接字符串。
这样截取的字符串,既满足了字符串限定的长度,也解决了截取过程中出现乱码字符的问题。
从而解决程序运行过程中出现的问题。
以上是关于php解决中英混排字符串截取的主要内容,如果未能解决你的问题,请参考以下文章
泰山OFFICE技术讲座:由中英文混排,谈间距kerning