IS 字符串是有效的 URL 或不是

Posted

技术标签:

【中文标题】IS 字符串是有效的 URL 或不是【英文标题】:IS String is valid URL OR NOT 【发布时间】:2013-11-28 14:54:24 【问题描述】:

我正在使用带有此代码的 .net 2010 c# windows 应用程序:检查 Valid Uri 与否

代码:

static bool IsValidUrl(string urlString)

    Uri uri;
    return Uri.TryCreate(urlString, UriKind.Absolute, out uri)
        && (uri.Scheme == Uri.UriSchemeHttp
         || uri.Scheme == Uri.UriSchemeHttps
         || uri.Scheme == Uri.UriSchemeFtp
         || uri.Scheme == Uri.UriSchemeMailto
         );

问题:如果我验证这个 http://http://www.Google.com 我得到它的有效性但是当我尝试使用 IE 时它没有显示任何网站。

有什么方法可以找出 String 是否是有效的 uri? (不使用正则表达式和互联网访问)

【问题讨论】:

好吧,不检查网络有什么意义?如果你没有互联网,他无论如何都无法访问它...... 一个 URL 的格式是否有效和它是否实际指向任何地方是不同的。 所以你是说这个 URI 格式正确? @GrantThomas 是的。当您查看 rfc3986 时,您会发现这是可能的。您的字符串将产生以下结果:Scheme: http, Protocol: http, Resource: //www.Google.com 这是一个无效的 url(对于 webrequests),但是一个有效的 uri。 感谢@JanesAbouChleih 的解释。请问有什么方法可以在不使用互联网访问的情况下验证 URL。 【参考方案1】:

它不是一个无效的 URI,甚至不是一个永远不会工作的 URI:你可以在浏览器中使用它,那里有一个名为“http”的本地机器(或者如果你将 Hosts 文件设置为调用机器那个)。

问题在于完全正确的 URI http://http://www.Google.com,通常以 http://http//www.Google.com 的形式使用,因为我们通常不会在主机之后包含 :,除非我们包含端口号,无法工作,因为它找不到名为“http”的机器。

现在,即使这有时会奏效,当然也不会一直奏效。所以这与 URI http://www.thisdoesnotexistbecauseijustmdeitup.com/ 的问题不同。

如果你还需要检测这种情况,那么除了连接到互联网之外真的别无他法。

如果您需要检测可在全球范围内工作的 URI,而不仅仅是在特定 LAN 上,那么:

static bool IsGloballyUsableWebMailorFtpUrl(string urlString)

  Uri uri;
  if(!Uri.TryCreate(urlString, UriKind.Absolute, out uri))
    return false;
  if(uri.Scheme != Uri.UriSchemeHttp
     && uri.Scheme != Uri.UriSchemeHttps
     && uri.Scheme != Uri.UriSchemeFtp
     && uri.Scheme != Uri.UriSchemeMailto)
     return false;
  string host = uri.Host;
  IPAddress ip;
  if(!IPAddress.TryParse(host, out ip))//if we don't have an IP address in the host part.
    return host.Contains('.') && !host.EndsWith(".local", StringComparison.OrdinalIgnoreCase); // Does the domain have at least one period
                                                   // And not the "local" binding used on many
                                                   // Private networks
  var octets = ip.GetAddressBytes();
  if(octets.Length == 4)
    switch(octets[0])//We've an IPv4 IP address, check it's not reserved.
    
      case 0: case 10: case 127:
        return false;
      case 128: case 191:
        return octets[1] != 0;
      case 169:
        return octets[1] != 254;
      case 172:
        return octets[1] < 16 || octets[1] > 31;
      case 192:
        return octets[1] != 168 && (octets[1] != 0 || octets[2] != 0);
      case 223:
        return octets[1] != 255 && octets[2] != 255;
      default:
        return true;
    
  else
      //We've an IPv6 IP address, check it's not reserved.
      if(IPAddress.HostToNetworkOrder(1) != 1)
        octets = octets.Reverse().ToArray();
      var ipInt = new BigInteger(octets);
      //Not the neatest approach, but serves
      if(ipInt < 0)
        return true;
      if(ipInt < 2)
        return false;
      if(ipInt < 281470681743360)
        return true;
      if(ipInt < 281474976710656)
        return false;
      if(ipInt < BigInteger.Parse("524413980667603649783483181312245760"))
        return true;
      if(ipInt < BigInteger.Parse("524413980667603649783483185607213056"))
        return false;
      if(ipInt < BigInteger.Parse("42540488161975842760550356425300246528"))
        return true;
      if(ipInt < BigInteger.Parse("42540488241204005274814694018844196864"))
        return false;
      if(ipInt < BigInteger.Parse("42540489429626442988779757922003451904"))
        return true;
      if(ipInt < BigInteger.Parse("42540490697277043217009159418706657280"))
        return false;
      if(ipInt < BigInteger.Parse("42540766411282592856903984951653826560"))
        return true;
      if(ipInt < BigInteger.Parse("42540766490510755371168322545197776896"))
        return false;
      if(ipInt < BigInteger.Parse("42545680458834377588178886921629466624"))
        return true;
      if(ipInt < BigInteger.Parse("42550872755692912415807417417958686720"))
        return false;
      if(ipInt < BigInteger.Parse("334965454937798799971759379190646833152"))
        return true;
      if(ipInt < BigInteger.Parse("337623910929368631717566993311207522304"))
        return false;
      if(ipInt < BigInteger.Parse("338288524927261089654018896841347694592"))
        return true;
      if(ipInt < BigInteger.Parse("338620831926207318622244848606417780736"))
        return false;
      if(ipInt < BigInteger.Parse("338953138925153547590470800371487866880"))
        return true;
      if(ipInt < BigInteger.Parse("340282366920938463463374607431768211456"))
        return false;
      return true;
    

编辑:值得考虑是否应该进行此检查,如果它用于最终将连接到相关 URI 的应用程序,那么您只会通过拒绝连接到他们局域网上的机器来惹恼用户。

【讨论】:

感谢有趣的回答和解释。即使它不符合我的要求。 @Civa 您还有什么要求?它可以正确阻止http://http://www.Google.com 和类似情况(http://blah/http://192.168.0.0),并允许通过任何真实网站的几乎任何 URI(http://www.google.comhttp://193.120.166.84 等)并且不会访问网络这样做。除此之外,您还需要允许或禁止哪些其他可能性? 我正在使用旧的图书馆数字化流程。他们没有给我保证网页现在还活着。所以我无法获得这些位置的 IP 地址。所以你的解决方案不适合我。但它有趣的方法就是为什么我之前给出了 +1 @Civa 我只在输入的URI直接包含IP地址的情况下才注意IP地址,否则不是因素。【参考方案2】:

了解给定字符串是否表示有效 url 的最佳方法是执行自定义分析。此外,您应该将您的bool 函数替换为string(或Uri)一个能够纠正某些情况(如您提出的示例)的函数。示例代码:

private void Form1_Load(object sender, EventArgs e)

    string rightUrl = returnValidUrl("http://http://www.Google.com");
    if (rightUrl != "")
    
        //It is OK
    


static string returnValidUrl(string urlString)

    string outUrl = "";
    Uri curUri = IsValidUrl(urlString);
    if (curUri != null)
    
        string headingBit = "http://";
        if (curUri.Scheme == Uri.UriSchemeHttps) headingBit = "https://";
        if (curUri.Scheme == Uri.UriSchemeFtp) headingBit = "ftp://";
        if (curUri.Scheme == Uri.UriSchemeMailto) headingBit = "mailto:";

        outUrl = headingBit + urlString.ToLower().Substring(urlString.ToLower().LastIndexOf(headingBit) + headingBit.Length);
    

    return outUrl;


static Uri IsValidUrl(string urlString)

    Uri uri = null;
    bool isValid = Uri.TryCreate(urlString, UriKind.Absolute, out uri)
        && (uri.Scheme == Uri.UriSchemeHttp
         || uri.Scheme == Uri.UriSchemeHttps
         || uri.Scheme == Uri.UriSchemeFtp
         || uri.Scheme == Uri.UriSchemeMailto
         );

    if (!isValid) uri = null;

    return uri;

可以用什么来调用:

string rightUrl = returnValidUrl("http://http://www.Google.com");
if (rightUrl != "")

    //It is OK

您必须扩展此方法以将您需要的所有情况识别为有效/正确。

更新

正如 cmets 所建议的那样,为了提供 OP 正在寻找的确切功能(其中的一个示例;就所提出的解决方案而言,它只是该问题所需要的推理方法类型的一个示例),考虑到发布的示例错误,在这里您有一个更正的 bool 函数:

static bool IsValidUrl2(string urlString)

    Uri uri;
    return Uri.TryCreate(urlString, UriKind.Absolute, out uri)
        && ((uri.Scheme == Uri.UriSchemeHttp && numberOfBits(urlString.ToLower(), "http://") == 1)
         || (uri.Scheme == Uri.UriSchemeHttps && numberOfBits(urlString.ToLower(), "https://") == 1)
         || (uri.Scheme == Uri.UriSchemeFtp && numberOfBits(urlString.ToLower(), "ftp://") == 1)
         || (uri.Scheme == Uri.UriSchemeMailto && numberOfBits(urlString.ToLower(), "mailto:") == 1)
         );


static int numberOfBits(string inputString, string bitToCheck)

    return inputString.ToLower().Split(new string[]  bitToCheck.ToLower() , StringSplitOptions.None).Length - 1;

澄清

完全确定给定 url 是否有效的唯一方法是实际测试它;但是 OP 说没有我所理解的纯字符串分析的联系:这个答案到底是关于什么的。在任何情况下,正如 cmets 所解释的,这篇文章的目的只是说明:.NET + 自定义算法(通过理解依靠字符串分析来实现整体适用性非常困难);我的提议解释了 OP(重复的“标题部分”)并依赖他的条件解释的具体问题。它根本不能被理解为一种普遍适用、盲目使用的方法;但作为具有示例功能的通用框架(仅仅是概念证明)。

澄清 2

正如下面 cmets 中与 Jon Hanna 的对话所示,还有第三种我不知道的选择:分析未来的 IP 地址(即,数字已经放在一起,但尚未检查 IP 地址的可用性因此没有开始确定 IP 地址生成);通过查看它,还可以确定给定字符串是有效 URL 地址的可能性(在预期条件下)。无论如何,这也不能被视为 100% 可靠的过程,因为所分析的 IP 地址不是最终的。无论如何,Jon Hanna 比我更适合谈论这种替代方案的局限性。

【讨论】:

虽然它并没有阻止他们抱怨的 URI。 @JonHanna 我的方法的重点不是阻止它;但如果可能,请纠正它,如果没有其他选择,请停止它。我现在将添加一个更正以停止它。 @JonHanna 考虑到发布的示例错误,您有一个布尔函数。 我可以将结果与传递参数进行比较吗?在字符串中 returnValidUrl(string urlString) @Civa... 今天你发现了http://http:// 的这个问题,但明天你会发现你不想将http://co.www.url.com 视为有效等等。因此,我对您的问题的解决方案不是“获取此代码并盲目使用它”;但是您必须构建的一种方法的示例:一个考虑到 .NET 功能(通过 Uri Schema,就像您正在做的那样)以及一组自定义算法查找/纠正不应该被认为是正确的情况。我希望我的观点现在更清楚了。【参考方案3】:

您可以编写一个自定义函数来检查 http:// 或初始部分是否与您编写的此代码一起重复。

【讨论】:

我不是要求这个特殊情况。我正在寻找针对我的问题的通用解决方案。

以上是关于IS 字符串是有效的 URL 或不是的主要内容,如果未能解决你的问题,请参考以下文章

检查字符串是不是以某种模式结束

检查字符串是不是为有效 URL 的 RFC 兼容和工作正则表达式是啥

依赖 URL 查询参数的顺序是不是合法或安全?

如何判断一个字符串是不是是有效的 JSON?

使用 Google API 发送邮件时出错 - “'原始' RFC822 有效负载消息字符串或通过 /upload/* URL 上传消息”

一个 URL 中有多个问号是不是有效?