Python 的 urllib.quote() 和 urllib.unquote() 的等效 Javascript 函数

Posted

技术标签:

【中文标题】Python 的 urllib.quote() 和 urllib.unquote() 的等效 Javascript 函数【英文标题】:Equivalent JavaScript functions for Python's urllib.parse.quote() and urllib.parse.unquote() 【发布时间】:2010-10-31 01:51:15 【问题描述】:

Python 的 urllib.quote()urllib.unquote() 是否有任何等效的 javascript 函数?

我遇到的最接近的是escape()encodeURI()encodeURIComponent()(以及它们相应的非编码函数),但它们不会编码/解码同一组特殊字符我知道。

谢谢, 卡梅伦

【问题讨论】:

(un)escape 为我完成了这项工作 【参考方案1】:

记录在案:

JavaScript               |  Python
----------------------------------- 
encodeURI(str)           |  urllib.quote(str, safe='~@#$&()*!+=:;,.?/\'');
-----------------------------------
encodeURIComponent(str)  |  urllib.quote(str, safe='~()*!.\'')

【讨论】:

对于更悬疑的记录,encodeURIComponent 使用 UTF-8,而 urllib.quote(u'é'),例如,会引发异常。等效的 Python 编码应该是 urllib.quote(unicode(str).encode('utf-8'), safe=... 在 Python3 中,应该使用 urllib.parse.quote(s, safe='...')。编码默认为 utf-8。见docs.python.org/3.0/library/… 这应该是最佳答案。【参考方案2】:

好的,我想我将使用一组混合自定义函数:

编码:使用 encodeURIComponent(),然后放回斜线。 解码:解码找到的任何 %hex 值。

这是我最终使用的更完整的变体(它也可以正确处理 Unicode):

function quoteUrl(url, safe) 
    if (typeof(safe) !== 'string') 
        safe = '/';    // Don't escape slashes by default
    

    url = encodeURIComponent(url);

    // Unescape characters that were in the safe list
    toUnencode = [  ];
    for (var i = safe.length - 1; i >= 0; --i) 
        var encoded = encodeURIComponent(safe[i]);
        if (encoded !== safe.charAt(i))     // Ignore safe char if it wasn't escaped
            toUnencode.push(encoded);
        
    

    url = url.replace(new RegExp(toUnencode.join('|'), 'ig'), decodeURIComponent);

    return url;



var unquoteUrl = decodeURIComponent;    // Make alias to have symmetric function names

请注意,如果您在编码时不需要“安全”字符(Python 中默认为'/'),那么您可以直接使用内置的encodeURIComponent()decodeURIComponent() 函数。

此外,如果字符串中有 Unicode 字符(即代码点 >= 128 的字符),那么为了保持与 JavaScript 的 encodeURIComponent() 的兼容性,Python quote_url() 必须是:

def quote_url(url, safe):
    """URL-encodes a string (either str (i.e. ASCII) or unicode);
    uses de-facto UTF-8 encoding to handle Unicode codepoints in given string.
    """
    return urllib.quote(unicode(url).encode('utf-8'), safe)

unquote_url() 将是:

def unquote_url(url):
    """Decodes a URL that was encoded using quote_url.
    Returns a unicode instance.
    """
    return urllib.unquote(url).decode('utf-8')

【讨论】:

如果您要回答自己的问题,至少要花时间整理出更详细的答案,以帮助遇到相同问题的其他人。 @Chris:嗯,很抱歉。我将扩展我的答案并添加一些代码。 我使用了 unquote_url 函数,但在迁移到 Python 3 时遇到了问题 - 在 python 3 中解码是自动的,在 python 2 中,它仍然是必需的。我想不出一种在两种语言中都能很好地做到这一点的方法。我的py3代码是urllib.parse.unquote(six.text_type(a))【参考方案3】:

如果您不介意额外的依赖,requests 库会更受欢迎

from requests.utils import quote
quote(str)

【讨论】:

【参考方案4】:

Python:urllib.quote

Javascript:unescape

我没有进行过广泛的测试,但就我的目的而言,它大部分时间都有效。我猜你有一些特定的字符不起作用。也许如果我使用一些亚洲文字或其他东西会破坏:)

当我在谷歌上搜索时出现了这个问题,所以我把它放在所有其他人身上,如果不是专门针对原始问题的话。

【讨论】:

【参考方案5】:

试试正则表达式。像这样的:

mystring.replace(/[\xFF-\xFFFF]/g, "%" + "$&".charCodeAt(0));

这会将序数 255 以上的任何字符替换为其对应的 %HEX 表示。

【讨论】:

这对于 255 以上的字符非常有用,但还有一些其他有趣的字符,quote() 会捕获低于 255 的字符(例如 '?'、'&'、'@' 和其他我不知道的字符'不知道) 括号表示一个字符集,它可以包括单个字符以及范围。您可以像 /[\?&@\xFF-\xFFFF]/g 一样轻松地编写它来实现该结果。您只需要转义任何也正则表达式特殊字符(如?或 /)的字符。

以上是关于Python 的 urllib.quote() 和 urllib.unquote() 的等效 Javascript 函数的主要内容,如果未能解决你的问题,请参考以下文章

python2.7 urllib和urllib2

在 Python 2.6.5 中,我可以为 urllib.quote 和 urllib.unquote 使用 unicode-ready 替代品吗?

urllib库python2和python3具体区别

urllib库在python2和python3环境下的使用区别

java如何实现python的urllib.quote(str,safe='/')

python学习--quote()函数