在JavaScript中检测含中文的字符串在UTF-8编码下占用的字节数

Posted 2023-03-03 bkzy

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了在JavaScript中检测含中文的字符串在UTF-8编码下占用的字节数相关的知识，希望对你有一定的参考价值。

1. 需求

在前台向后台传输数据时，如果后台需要校验所传输的字符串长度，且后台编码为UTF-8编码格式时（比如Golang环境），则需要此功能。

2. JS实现

2.1思路

检测每个字符在js环境下的16进制编码。

UTF-8编码规则如下：字符代码在000000 – 00007F之间的，用一个字节编码；000080 – 0007FF之间的字符用两个字节；000800 – 00D7FF 和 00E000 – 00FFFF之间的用三个字节(注: Unicode在范围 D800-DFFF 中不存在任何字符)；010000 – 10FFFF之间的用4个字节。

2.2 JS代码

function str_UTF8_len(str)
    let len=0;
    //let value = [];
    for (var i = 0; i < str.length; i++) 
		let c_hex = parseInt(str.charCodeAt(i));
		if (c_hex<=0x00007f)
	        len+=1; //在UTF-8编码占用1个字节
	    else if(c_hex>=0x000080 && c_hex<=0x0007ff)
	        len+=2; //在UTF-8编码中占用2个字节
	    else if(c_hex>=0x000800 && c_hex<=0x00ffff)
	        len+=3; //在UTF-8编码中占用3个字节
	    else
	        len+=4;
	    
	    //value.push(c_hex.toString(16));
    
    //console.log(str,value,"长度=",len);
    return len;

3.测试结果

注意：“hello word”后面的冒号是中文冒号“：”

4. 结论

符合预期。

5.参考文献

https://m.imooc.com/wenda/detail/562773

以上是关于在JavaScript中检测含中文的字符串在UTF-8编码下占用的字节数的主要内容，如果未能解决你的问题，请参考以下文章