Python 的 urllib.quote() 和 urllib.unquote() 的等效 Javascript 函数
Posted
技术标签:
【中文标题】Python 的 urllib.quote() 和 urllib.unquote() 的等效 Javascript 函数【英文标题】:Equivalent JavaScript functions for Python's urllib.parse.quote() and urllib.parse.unquote() 【发布时间】:2010-10-31 01:51:15 【问题描述】:Python 的 urllib.quote()
和 urllib.unquote()
是否有任何等效的 javascript 函数?
我遇到的最接近的是escape()
、encodeURI()
和encodeURIComponent()
(以及它们相应的非编码函数),但它们不会编码/解码同一组特殊字符我知道。
谢谢, 卡梅伦
【问题讨论】:
(un)escape 为我完成了这项工作 【参考方案1】:记录在案:
JavaScript | Python
-----------------------------------
encodeURI(str) | urllib.quote(str, safe='~@#$&()*!+=:;,.?/\'');
-----------------------------------
encodeURIComponent(str) | urllib.quote(str, safe='~()*!.\'')
【讨论】:
对于更悬疑的记录,encodeURIComponent
使用 UTF-8,而 urllib.quote(u'é')
,例如,会引发异常。等效的 Python 编码应该是 urllib.quote(unicode(str).encode('utf-8'), safe=...
在 Python3 中,应该使用 urllib.parse.quote(s, safe='...')。编码默认为 utf-8。见docs.python.org/3.0/library/…
这应该是最佳答案。【参考方案2】:
好的,我想我将使用一组混合自定义函数:
编码:使用 encodeURIComponent(),然后放回斜线。 解码:解码找到的任何 %hex 值。
这是我最终使用的更完整的变体(它也可以正确处理 Unicode):
function quoteUrl(url, safe)
if (typeof(safe) !== 'string')
safe = '/'; // Don't escape slashes by default
url = encodeURIComponent(url);
// Unescape characters that were in the safe list
toUnencode = [ ];
for (var i = safe.length - 1; i >= 0; --i)
var encoded = encodeURIComponent(safe[i]);
if (encoded !== safe.charAt(i)) // Ignore safe char if it wasn't escaped
toUnencode.push(encoded);
url = url.replace(new RegExp(toUnencode.join('|'), 'ig'), decodeURIComponent);
return url;
var unquoteUrl = decodeURIComponent; // Make alias to have symmetric function names
请注意,如果您在编码时不需要“安全”字符(Python 中默认为'/'
),那么您可以直接使用内置的encodeURIComponent()
和decodeURIComponent()
函数。
此外,如果字符串中有 Unicode 字符(即代码点 >= 128 的字符),那么为了保持与 JavaScript 的 encodeURIComponent()
的兼容性,Python quote_url()
必须是:
def quote_url(url, safe):
"""URL-encodes a string (either str (i.e. ASCII) or unicode);
uses de-facto UTF-8 encoding to handle Unicode codepoints in given string.
"""
return urllib.quote(unicode(url).encode('utf-8'), safe)
而unquote_url()
将是:
def unquote_url(url):
"""Decodes a URL that was encoded using quote_url.
Returns a unicode instance.
"""
return urllib.unquote(url).decode('utf-8')
【讨论】:
如果您要回答自己的问题,至少要花时间整理出更详细的答案,以帮助遇到相同问题的其他人。 @Chris:嗯,很抱歉。我将扩展我的答案并添加一些代码。 我使用了unquote_url
函数,但在迁移到 Python 3 时遇到了问题 - 在 python 3 中解码是自动的,在 python 2 中,它仍然是必需的。我想不出一种在两种语言中都能很好地做到这一点的方法。我的py3代码是urllib.parse.unquote(six.text_type(a))
【参考方案3】:
如果您不介意额外的依赖,requests 库会更受欢迎
from requests.utils import quote
quote(str)
【讨论】:
【参考方案4】:Python:urllib.quote
Javascript:unescape
我没有进行过广泛的测试,但就我的目的而言,它大部分时间都有效。我猜你有一些特定的字符不起作用。也许如果我使用一些亚洲文字或其他东西会破坏:)
当我在谷歌上搜索时出现了这个问题,所以我把它放在所有其他人身上,如果不是专门针对原始问题的话。
【讨论】:
【参考方案5】:试试正则表达式。像这样的:
mystring.replace(/[\xFF-\xFFFF]/g, "%" + "$&".charCodeAt(0));
这会将序数 255 以上的任何字符替换为其对应的 %HEX 表示。
【讨论】:
这对于 255 以上的字符非常有用,但还有一些其他有趣的字符,quote() 会捕获低于 255 的字符(例如 '?'、'&'、'@' 和其他我不知道的字符'不知道) 括号表示一个字符集,它可以包括单个字符以及范围。您可以像 /[\?&@\xFF-\xFFFF]/g 一样轻松地编写它来实现该结果。您只需要转义任何也正则表达式特殊字符(如?或 /)的字符。以上是关于Python 的 urllib.quote() 和 urllib.unquote() 的等效 Javascript 函数的主要内容,如果未能解决你的问题,请参考以下文章
在 Python 2.6.5 中,我可以为 urllib.quote 和 urllib.unquote 使用 unicode-ready 替代品吗?
urllib库在python2和python3环境下的使用区别