标准的 URL 编码功能?

Posted

技术标签:

【中文标题】标准的 URL 编码功能?【英文标题】:Standard URL encode function? 【发布时间】:2010-10-21 01:12:28 【问题描述】:

是否有与此.net 方法等效的 Delphi:

Url.UrlEncode()

注意 我已经好几年没有与 Delphi 合作了。 当我阅读答案时,我注意到当前标记的答案有几个评论和替代方案。我没有机会测试它们,所以我的答案基于最受好评的。 为了您自己,请检查以后的答案,并在决定为最佳答案投票后,让每个人都可以从您的经验中受益。

【问题讨论】:

【参考方案1】:

看一下 indy IdURI 单元,它在 TIdURI 类中有两个静态方法,用于对 URL 进行编码/解码。

uses
  IdURI;

..
begin
  S := TIdURI.URLEncode(str);
//
  S := TIdURI.URLDecode(str);
end;

【讨论】:

鲍里斯,来吧,接受这个答案,我只是给它一个完全有帮助的点:) @Peter Heh,我没有检查这个问题,因为我不再使用 Delphi。但不管怎样,你去吧;) 但请注意 Marc Durdin 的博客文章“Indy、TIdURI.PathEncode、URLEncode 和 ParamsEncode 等”中的警告,地址为 marc.durdin.net/2012/07/… Indy 无法正常工作,因此您需要查看这篇文章:marc.durdin.net/2012/07/… 从 Delphi xe7 开始,您可以使用 TNetEncoding.Url.Encode(),这是一种更智能的方式,并且独立于 Indi Components【参考方案2】:

另一种简单的方法是使用 HTTPApp 单元中的 HTTPEncode 函数 - 非常粗略

Uses 
  HTTPApp;

function URLEncode(const s : string) : string;
begin
  result := HTTPEncode(s);
end

HTTPEncode 在 Delphi 10.3 中已弃用 - '使用 TNetEncoding.URL.Decode'

Uses
  NetEncoding;

function URLEncode(const s : string) : string;
begin
  result := TNetEncoding.URL.Encode(s);
end

【讨论】:

TNetEncoding.url.encode 没有正确编码 '@' 和其他几个符号 - 小心它 还有System.Net.URLClient单元,包含类函数TURI.UrlEncode class function TURI.URLEncode(const AValue: string; SpacesAsPlus: Boolean): string;【参考方案3】:

另一种选择是使用Synapse 库,它在SynaCode 单元中具有简单的URL 编码方法(以及许多其他方法)。

uses
  SynaCode;
..
begin
  s := EncodeUrl( str );
//
  s := DecodeUrl( str );
end;

【讨论】:

【参考方案4】:

我自己做了这个函数来编码除了真正安全的字符之外的所有内容。特别是我遇到了+的问题。请注意,您不能使用此函数对整个 URL 进行编码,但您需要对不具有特殊含义的部分进行编码,通常是变量的值。

function MyEncodeUrl(source:string):string;
 var i:integer;
 begin
   result := '';
   for i := 1 to length(source) do
       if not (source[i] in ['A'..'Z','a'..'z','0','1'..'9','-','_','~','.']) then result := result + '%'+inttohex(ord(source[i]),2) else result := result + source[i];
 end;

【讨论】:

这应该是公认的答案。 (不确定它如何处理 UTF-8) Unicode 字符有问题。例如。 %633%6CC%628 是 unicode 字符串 'سیب' 的结果,它将被解码为 'c3lCb8' 很好的答案。当然,这个页面上的所有自定义编码解决方案都应该只编码危险字符,而不是排除安全字符。只有空格和 URI 中具有特殊含义的字符需要编码。例如。 Emb DokWiki 说“TURLEncoding 只编码空格(加号:+)和以下保留的 URL 编码字符:;:&=+,/?%#[]。”【参考方案5】:

由于Delphi xe7可以使用TNetEncoding.Url.Encode()

【讨论】:

【参考方案6】:

2018 年更新:下面显示的代码似乎已过时。见雷米的评论。

class function TIdURI.ParamsEncode(const ASrc: string): string;
var
  i: Integer;
const
  UnsafeChars = '*#%<> []';  do not localize
begin
  Result := '';    Do not Localize
  for i := 1 to Length(ASrc) do
  begin
    if CharIsInSet(ASrc, i, UnsafeChars) or (not CharIsInSet(ASrc, i, CharRange(#33,#128))) then begin do not localize
      Result := Result + '%' + IntToHex(Ord(ASrc[i]), 2);  do not localize
    end else begin
      Result := Result + ASrc[i];
    end;
  end;
end;

来自印地。


无论如何,Indy 工作不正常,所以您需要查看这篇文章:http://marc.durdin.net/2012/07/indy-tiduri-pathencode-urlencode-and-paramsencode-and-more/

【讨论】:

Altar 和 Marc Durdin 是对的。 TIdURI 坏了。 Unit REST.Utils 提供了一个可以正常工作的函数 URIEncode。 仅供参考,上面显示的代码是旧的。这不再是TIdURI.ParamsEncode() 的样子了。在最新版本中,UnsafeChars 中包含更多字符,Unicode 编码正确,并且预先存在的%HH 序列没有双重编码。 @RemyLebeau 预先存在的 %HH 序列未编码的事实是一个错误,恕我直言。如果我要求对字符串进行编码,无论如何都应该对其进行编码,无论它是否已经(部分)编码。例如,字符串 'ABC%DE' 在 TIdURI.Encode 中没有正确编码,因为它按原样返回,而它应该变成 'ABC%25DE'。【参考方案7】:

在非 dotnet 环境中,Wininet 单元提供对 Windows 的 WinHTTP 编码功能的访问: InternetCanonicalizeUrl

【讨论】:

【参考方案8】:

在最新版本的 Delphi 中(使用 XE5 测试),使用 REST.Utils 单元中的 URIEncode 函数。

【讨论】:

【参考方案9】:

我也面临同样的问题(Delphi 4)。

我使用下面提到的函数解决了这个问题:

function fnstUrlEncodeUTF8(stInput : widestring) : string;
  const
    hex : array[0..255] of string = (
     '%00', '%01', '%02', '%03', '%04', '%05', '%06', '%07',
     '%08', '%09', '%0a', '%0b', '%0c', '%0d', '%0e', '%0f',
     '%10', '%11', '%12', '%13', '%14', '%15', '%16', '%17',
     '%18', '%19', '%1a', '%1b', '%1c', '%1d', '%1e', '%1f',
     '%20', '%21', '%22', '%23', '%24', '%25', '%26', '%27',
     '%28', '%29', '%2a', '%2b', '%2c', '%2d', '%2e', '%2f',
     '%30', '%31', '%32', '%33', '%34', '%35', '%36', '%37',
     '%38', '%39', '%3a', '%3b', '%3c', '%3d', '%3e', '%3f',
     '%40', '%41', '%42', '%43', '%44', '%45', '%46', '%47',
     '%48', '%49', '%4a', '%4b', '%4c', '%4d', '%4e', '%4f',
     '%50', '%51', '%52', '%53', '%54', '%55', '%56', '%57',
     '%58', '%59', '%5a', '%5b', '%5c', '%5d', '%5e', '%5f',
     '%60', '%61', '%62', '%63', '%64', '%65', '%66', '%67',
     '%68', '%69', '%6a', '%6b', '%6c', '%6d', '%6e', '%6f',
     '%70', '%71', '%72', '%73', '%74', '%75', '%76', '%77',
     '%78', '%79', '%7a', '%7b', '%7c', '%7d', '%7e', '%7f',
     '%80', '%81', '%82', '%83', '%84', '%85', '%86', '%87',
     '%88', '%89', '%8a', '%8b', '%8c', '%8d', '%8e', '%8f',
     '%90', '%91', '%92', '%93', '%94', '%95', '%96', '%97',
     '%98', '%99', '%9a', '%9b', '%9c', '%9d', '%9e', '%9f',
     '%a0', '%a1', '%a2', '%a3', '%a4', '%a5', '%a6', '%a7',
     '%a8', '%a9', '%aa', '%ab', '%ac', '%ad', '%ae', '%af',
     '%b0', '%b1', '%b2', '%b3', '%b4', '%b5', '%b6', '%b7',
     '%b8', '%b9', '%ba', '%bb', '%bc', '%bd', '%be', '%bf',
     '%c0', '%c1', '%c2', '%c3', '%c4', '%c5', '%c6', '%c7',
     '%c8', '%c9', '%ca', '%cb', '%cc', '%cd', '%ce', '%cf',
     '%d0', '%d1', '%d2', '%d3', '%d4', '%d5', '%d6', '%d7',
     '%d8', '%d9', '%da', '%db', '%dc', '%dd', '%de', '%df',
     '%e0', '%e1', '%e2', '%e3', '%e4', '%e5', '%e6', '%e7',
     '%e8', '%e9', '%ea', '%eb', '%ec', '%ed', '%ee', '%ef',
     '%f0', '%f1', '%f2', '%f3', '%f4', '%f5', '%f6', '%f7',
     '%f8', '%f9', '%fa', '%fb', '%fc', '%fd', '%fe', '%ff');
 var
   iLen,iIndex : integer;
   stEncoded : string;
   ch : widechar;
 begin
   iLen := Length(stInput);
   stEncoded := '';
   for iIndex := 1 to iLen do
   begin
     ch := stInput[iIndex];
     if (ch >= 'A') and (ch <= 'Z') then
       stEncoded := stEncoded + ch
     else if (ch >= 'a') and (ch <= 'z') then
       stEncoded := stEncoded + ch
     else if (ch >= '0') and (ch <= '9') then
       stEncoded := stEncoded + ch
     else if (ch = ' ') then
       stEncoded := stEncoded + '+'
     else if ((ch = '-') or (ch = '_') or (ch = '.') or (ch = '!') or (ch = '*')
       or (ch = '~') or (ch = '\')  or (ch = '(') or (ch = ')')) then
       stEncoded := stEncoded + ch
     else if (Ord(ch) <= $07F) then
       stEncoded := stEncoded + hex[Ord(ch)]
     else if (Ord(ch) <= $7FF) then
     begin
        stEncoded := stEncoded + hex[$c0 or (Ord(ch) shr 6)];
        stEncoded := stEncoded + hex[$80 or (Ord(ch) and $3F)];
     end
     else
     begin
        stEncoded := stEncoded + hex[$e0 or (Ord(ch) shr 12)];
        stEncoded := stEncoded + hex[$80 or ((Ord(ch) shr 6) and ($3F))];
        stEncoded := stEncoded + hex[$80 or ((Ord(ch)) and ($3F))];
     end;
   end;
   result := (stEncoded);
 end;

来源:Java source code

【讨论】:

这段代码(以及它的 Java 起源)效率再低下——哪个程序员会定义这样一个数组而不是计算它?【参考方案10】:

我已经做了我自己的功能。它将空格转换为 %20,而不是加号。需要将本地文件路径转换为浏览器路径(带有 file:/// 前缀)。最重要的是它处理 UTF-8 字符串。它受到上述 Radek Hladik 解决方案的启发。

function URLEncode(s: string): string;
var
  i: integer;
  source: PAnsiChar;
begin
  result := '';
  source := pansichar(s);
  for i := 1 to length(source) do
    if not (source[i - 1] in ['A'..'Z', 'a'..'z', '0'..'9', '-', '_', '~', '.', ':', '/']) then
      result := result + '%' + inttohex(ord(source[i - 1]), 2)
    else
      result := result + source[i - 1];
end;       

【讨论】:

哦,它在 Lazarus 中测试过,但在 Delphi 2010+ 中也应该可以工作。【参考方案11】:

AFAIK 你需要自己制作。

这是一个例子。

HTTPEncode

【讨论】:

【参考方案12】:

TIdUri 或 HTTPEncode 存在 unicode 字符集问题。下面的函数将为您进行正确的编码。

function EncodeURIComponent(const ASrc: string): UTF8String;
const
  HexMap: UTF8String = '0123456789ABCDEF';

  function IsSafeChar(ch: Integer): Boolean;
  begin
    if (ch >= 48) and (ch <= 57) then Result := True    // 0-9
    else if (ch >= 65) and (ch <= 90) then Result := True  // A-Z
    else if (ch >= 97) and (ch <= 122) then Result := True  // a-z
    else if (ch = 33) then Result := True // !
    else if (ch >= 39) and (ch <= 42) then Result := True // '()*
    else if (ch >= 45) and (ch <= 46) then Result := True // -.
    else if (ch = 95) then Result := True // _
    else if (ch = 126) then Result := True // ~
    else Result := False;
  end;
var
  I, J: Integer;
  ASrcUTF8: UTF8String;
begin
  Result := '';    Do not Localize

  ASrcUTF8 := UTF8Encode(ASrc);
  // UTF8Encode call not strictly necessary but
  // prevents implicit conversion warning

  I := 1; J := 1;
  SetLength(Result, Length(ASrcUTF8) * 3); // space to %xx encode every byte
  while I <= Length(ASrcUTF8) do
  begin
    if IsSafeChar(Ord(ASrcUTF8[I])) then
    begin
      Result[J] := ASrcUTF8[I];
      Inc(J);
    end
    else if ASrcUTF8[I] = ' ' then
    begin
      Result[J] := '+';
      Inc(J);
    end
    else
    begin
      Result[J] := '%';
      Result[J+1] := HexMap[(Ord(ASrcUTF8[I]) shr 4) + 1];
      Result[J+2] := HexMap[(Ord(ASrcUTF8[I]) and 15) + 1];
      Inc(J,3);
    end;
    Inc(I);
  end;

  SetLength(Result, J-1);
end;

【讨论】:

我相信这是这段代码的正确功劳:marc.durdin.net/2012/07/… 以及一个也适用于移动平台的更新版本:marc.durdin.net/2015/08/an-update-for-encodeuricomponent 在这段代码中也应该注意(在它来自的网站上),空格被错误地编码为+。这不是 encodeURIComponent 应该如何工作的。它应该将其编码为 %20:developer.mozilla.org/en-US/docs/Web/javascript/Reference/… 不过,它已在适合移动设备的版本中修复。【参考方案13】:

我想指出,如果您更关心正确性而不是效率,那么您可以做的最简单的事情就是对每个字符进行十六进制编码,即使这不是绝对必要的。

就在今天,我需要为基本的 html 登录表单提交编码一些参数。在浏览了所有选项之后,每个选项都有自己的警告,我决定编写这个完美运行的简单版本:

function URLEncode(const AStr: string): string;
var
  LBytes: TBytes;
  LIndex: Integer;
begin
  Result := '';
  LBytes := TEncoding.UTF8.GetBytes(AStr);
  for LIndex := Low(LBytes) to High(LBytes) do
    Result := Result + '%' + IntToHex(LBytes[LIndex], 2);
end;

【讨论】:

以上是关于标准的 URL 编码功能?的主要内容,如果未能解决你的问题,请参考以下文章

Python 标准类库-因特网数据处理之Base64数据编码

python标准模块介绍 -Base64: Base64, Base85等数据编码

URL编码

如何在 C# 中对字符串进行 URL 编码

URL中文编码解码

前端常用的url编码方式