比较准确完整的中文字符正则校验

Posted 2021-01-18 demonbug

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了比较准确完整的中文字符正则校验相关的知识，希望对你有一定的参考价值。

网上大多数校验中文的正则都是u4e00-u9fa5，经过实际测试，这个正则无法匹配中文标点，如（），。等

仔细研究了unicode的规范，本着尽量宽泛、遵循unicode分类的原则，总结了一套比较准确完整的校验规则：

// http://www.unicode.org/charts/PDF/U2000.pdf 一般标点
// http://www.unicode.org/charts/PDF/U3000.pdf CJK符号和标点
// http://www.unicode.org/charts/PDF/U4E00.pdf CJK统一表意文字
// http://www.unicode.org/charts/PDF/UFF00.pdf 半宽全宽形状
String COMMON_STRING_REGEX = "[u2000-u206fu3000-u303fu4e00-u9fefuff00-uffef]*";

以上是关于比较准确完整的中文字符正则校验的主要内容，如果未能解决你的问题，请参考以下文章

这二十个正则表达式，学会的话能让你少写1000行代码

正则校验字母数字特殊字符的函数

改善深层神经网络-week1编程题（初始化正则化梯度校验）

如何对数升级之后的数据库进行数据完整性和准确性的校验

通过 Java 正则表达式提取 semver 版本字符串的片段

常见正则表达式及身份证校验规则