91. 正确统计中文字数

Posted 友缘聚友

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了91. 正确统计中文字数相关的知识,希望对你有一定的参考价值。

PHP 中如何正确统计中文字数?这个是困扰我很久的问题,php 中有很多函数可以计算字符串的长度,比如下面的例子,分别使用了 strlenmb_strlenmb_strwidth 这个三个函数去测试统计字符串的长度,看看把中文算成几个字节:

echo strlen("你好ABC") . "";
//输出 9
echo mb_strlen("你好ABC", ‘UTF-8‘) . "";
// 输出 5
echo mb_strwidth("你好ABC") . "";
//输出 7
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

从上面的测试,我们可以看出:strlen 把中文字符算成 3 个字节,mb_strlen 不管中文还是英文,都算 1 个字节,而 mb_strwidth 则把中文算成 2 个字节,所以 mb_strwidth 才是我们想要的:中文 2 个字节,英文 1 个字节。

同样截取字符串也建议使用 mb_strimwidth,也是按照 中文 2 个字节,英文 1 个字节 方式计算之后的,并且如果字数超过截取的要求,这个函数还可以在最后面自动添加‘…’。

mb_strimwidth($post_excerpt,0,240,‘...‘,‘utf-8‘);
  • 1
  • 1

注意,最后添加‘utf-8’编码参数,可以避免中文截取乱码的问题。

以上是关于91. 正确统计中文字数的主要内容,如果未能解决你的问题,请参考以下文章

vue使用textare如何正确统计输入字符个数

正确的 LaTeX 文档字数

使用Python读取markdown文件并统计字数

Countvectorize 统计大文件中的字数

使用 Spark 和 Scala 进行字数统计

dotnet C# 如何正确获取藏文的字数