如何在输入字段中检测非“GSM 7 位字母”字符

Posted

技术标签:

【中文标题】如何在输入字段中检测非“GSM 7 位字母”字符【英文标题】:How to Detect Non "GSM 7 bit alphabet" characters in input field 【发布时间】:2012-09-22 07:02:00 【问题描述】:

我正在尝试检测文本输入字段是否包含任何不属于 GSM 7 位字母表的字符。有字符的表在这里http://www.dreamfabric.com/sms/default_alphabet.html

经过大量搜索,我发现这个 (What regular expression do I need to check for some non-latin characters?) 非常接近我想要完成的任务,因为它检测到非拉丁字符。如何更改正则表达式以包含 GSM 7 位字母表?

<!DOCTYPE HTML>
<html lang="en-US">
<head>
    <meta charset="UTF-8">
    <title>test foreign chars</title>
</head>
<body>

    <input id="foreign_characters" size="12" type="text" name="foreign_characters" value="test">

<script src="https://ajax.googleapis.com/ajax/libs/jquery/1.8.2/jquery.min.js"></script>
<script type="text/javascript">

(function()

    $('#foreign_characters').on("keyup", function()

        var foreignCharacters = $("#foreign_characters").val();
        var rforeign = /[^\u0000-\u007f]/;

        if (rforeign.test(foreignCharacters)) 
          alert("This is non-Latin Characters");
         else 
          alert("This is Latin Characters");
        

    );

)();

    </script>
</body>
</html>

【问题讨论】:

【参考方案1】:
function isGSMAlphabet(text) 
    var regexp = new RegExp("^[A-Za-z0-9 \\r\\n@£$¥èéùìòÇØøÅå\u0394_\u03A6\u0393\u039B\u03A9\u03A0\u03A8\u03A3\u0398\u039EÆæßÉ!\"#$%&'()*+,\\-./:;<=>?¡ÄÖÑܧ¿äöñüà^\\\\\\[~\\]|\u20AC]*$");

    return regexp.test(text);

这个正则表达式应该可以解决你的问题。

【讨论】:

我正在输入 rforeign = "^[A-Za-z0-9 \\r\\n@£$¥èéùìòÇØøÅå\u0394_\u03A6\u0393\u039B\u03A9\u03A0\u03A8\u03A3 \u0398\u039EÆæßÉ!\"#$%&'()*+,\\-./:;?¡ÄÖÑܧ¿äöñüà^\\\\\[~\]|\u20AC]* $"; 我收到“rforeign.test 不是函数”的错误 正则表达式没问题,但是你用错了。使用var rforeign = /regex/;var rforeign = new RegExp("regex"); 这确实适用于 javascript。使用的代码: function containsAllAscii(str) return /^[A-Za-z0-9\r\n@£$¥èéùìòÇØøÅå\u0394_\u03A6\u0393\u039B\u03A9\u03A0\u03A8\u03A3\u0398\u039EÆæßÉ! "#$%&'()*+,\-./:;<=>?¡ÄÖÑܧ¿äöñüà^\\[~]|\u20AC]*$/.test(str) ; 正则表达式缺少字符 \u00A4 三重转义反斜杠 `\\\\\\` 的目的是什么?【参考方案2】:

您可以将所有有效字符放在一个字符串中,然后重复搜索该字符串。

gsm = "@£$¥èéùìòÇØøÅåΔ_ΦΓΛΩΠΨΣΘΞ^\[~]|€ÆæßÉ!\"#¤%&'()*+,-./0123456789:;<=>?¡ABCDEFGHIJKLMNOPQRSTUVWXYZÄÖÑܧ¿abcdefghijklmnopqrstuvwxyzäöñüà";
var letter = 'a';
var letterInAlfabet = gsm.indexOf(letter) !== -1;

如果你使用它,请确保你的编码是正确的,即将你的 Javascript 文件保存为 UTF8 并指定它是浏览器的 UTF8

【讨论】:

我现在会检查它,因为正则表达式不适合我。 所以我必须对照这个 gsm 变量一一检查所有字符? 您能回复一下吗?字母“A”返回真,字符串“AD”返回假。据我了解,我必须循环每个字符并检查 gsm 字符串。我该怎么做? for (var i = 0; i &lt; str.length; i++) letter = str[i]; 您缺少空格和换行符。【参考方案3】:

接受的答案会起作用,但它们会受到复杂性(使用正则表达式)和性能(需要搜索两个数组)的影响。这是一个性能更好的解决方案,由于使用了查找集,以及如果找到非 GSM7 字符将短路的循环。使用 Unicode 点以便在剪切和粘贴此代码时不会出现不同的字符编码问题。

const gsmCodePoints = new Set([
  0x000a, 0x000c, 0x000d, 
  0x0020, 0x0021, 0x0022, 0x0023, 0x0024, 0x0025, 0x0026, 0x0027, 0x0028, 0x0029, 0x002a, 0x002b, 0x002c, 0x002d, 0x002e, 0x002f,
  0x0030, 0x0031, 0x0032, 0x0033, 0x0034, 0x0035, 0x0036, 0x0037, 0x0038, 0x0039, 0x003a, 0x003b, 0x003c, 0x003d, 0x003e, 0x003f,
  0x0040, 0x0041, 0x0042, 0x0043, 0x0044, 0x0045, 0x0046, 0x0047, 0x0048, 0x0049, 0x004a, 0x004b, 0x004c, 0x004d,
  0x004e, 0x004f,
  0x0050, 0x0051, 0x0052, 0x0053, 0x0054, 0x0055, 0x0056, 0x0057, 0x0058, 0x0059,  0x005a, 0x005b, 0x005c, 0x005d, 0x005e, 0x005f, 
  0x0061, 0x0062, 0x0063, 0x0064, 0x0065, 0x0066, 0x0067, 0x0068, 0x0069, 0x006a, 0x006b, 0x006c, 0x006d, 0x006e, 0x006f, 
  0x0070, 0x0071, 0x0072, 0x0073, 0x0074, 0x0075, 0x0076, 0x0077, 0x0078, 0x0079, 0x007a, 0x007b, 0x007c, 0x007d, 0x007e,
  0x00a1, 0x00a3, 0x00a4, 0x00a5, 0x00a7,
  0x00bf,
  0x00c4, 0x00c5, 0x00c6, 0x00c7, 0x00c9,
  0x00d1, 0x00d6, 0x00d8, 0x00dc, 0x00df,
  0x00e0, 0x00e4, 0x00e5, 0x00e6, 0x00e8, 0x00e9, 0x00ec,
  0x00f1, 0x00f2, 0x00f6, 0x00f8, 0x00f9, 0x00fc,
  0x0393, 0x0394, 0x0398, 0x039b, 0x039e, 0x03a0, 0x03a3, 0x03a6, 0x03a8, 0x03a9,
  0x20ac,
]);

function isGsmMessage(message) 
  for (const s of message) 
    const codePoint = s.codePointAt(0);
    if (codePoint && !gsmCodePoints.has(codePoint)) 
      return false;
    
  
  return true;


isGsmMessage('foo'); // -> true
isGsmMessage('⚡️ bar ?'); // -> false

// All GSM characters
isGsmMessage('@£$¥èéùìòÇ\nØø\rÅåΔ_ΦΓΛΩΠΨΣΘΞÆæßÉ\x20!"#¤%&\'()*+,-./0123456789:;<=>?¡ABCDEFGHIJKLMNOPQRSTUVWXYZÄÖÑܧ¿abcdefghijklmnopqrstuvwxyzäöñüà\f^\\[~]|€'); // -> true

【讨论】:

【参考方案4】:

我有textarea,ID 为smscontent。我使用下面的正则表达式/代码

$('#smscontent').on('input, change keyup', function()
    $(this).val($(this).val().replace(/[^A-Za-z0-9 \r\n@£$¥!\"#$%&amp;'\(\)*\+,_.\/:;&lt;=&gt;?^\\\[~\]]*/ig, ''));
);

测试 Lajos 共享的正则表达式 - https://www.regextester.com/99623

测试此答案中使用的正则表达式 - https://www.regextester.com/?fam=106436

【讨论】:

以上是关于如何在输入字段中检测非“GSM 7 位字母”字符的主要内容,如果未能解决你的问题,请参考以下文章

如何在 iPhone SDK 的文本字段的文本中检测空格和特殊字符,如 :、?、`、~ 等?

如何检测keypress()上输入的第一个字符

如何检测文本字段中是不是包含文本而不是数值?

Oracle中如何用正则表达式检测某个字段是不是带有日文字符

当文本与文本字段大小相同时,如何停止在文本字段中输入字符?

如何检测用户何时在输入字段中按 Enter