检查 URL 是不是是有效的 Feed

Posted

技术标签:

【中文标题】检查 URL 是不是是有效的 Feed【英文标题】:Check if a URL is a valid Feed检查 URL 是否是有效的 Feed 【发布时间】:2012-08-13 08:23:21 【问题描述】:

我正在使用 Argotic Syndication Framework 来处理提要。

但问题是,如果我将 URL 传递给 Argotic,它不是有效的提要(例如,http://***.com 这是一个 html 页面,而不是提要),程序就会挂起(我的意思是,Argotic 停留在无限循环)

那么,如何检查一个 URL 是否指向一个有效的提要?

【问题讨论】:

【参考方案1】:

从 .NET 3.5 开始,您可以在下面执行此操作。如果它不是有效的提要,它将引发异常。

using System.Diagnostics;
using System.ServiceModel.Syndication;
using System.Xml;

public bool TryParseFeed(string url)

    try
    
        SyndicationFeed feed = SyndicationFeed.Load(XmlReader.Create(url));

        foreach (SyndicationItem item in feed.Items)
        
            Debug.Print(item.Title.Text);
        
        return true;
    
    catch (Exception)
    
        return false;
    

或者您可以尝试自己解析文档:

string xml = "<?xml version=\"1.0\" encoding=\"utf-8\" ?>\n<event>This is a Test</event>";
XmlDocument xmlDoc = new XmlDocument();
xmlDoc.LoadXml(xml);

然后尝试检查根元素。它应该是 feed 元素并具有“http://www.w3.org/2005/Atom”命名空间:

<feed xmlns="http://www.w3.org/2005/Atom" xmlns:creativeCommons="http://backend.userland.com/creativeCommonsRssModule" xmlns:re="http://purl.org/atompub/rank/1.0">

参考资料: http://msdn.microsoft.com/en-us/library/system.servicemodel.syndication.syndicationfeed.aspx http://dotnet.dzone.com/articles/systemservicemodelsyndication

【讨论】:

由于我的项目是在一个web应用程序中,所以我不能信任header。有人可能会提供无效的提要,但有效的 XML 和有效的根元素,然后我的应用程序挂起... :( 感谢您的更新。但是一个问题:System.ServiceModel.Syndication 支持哪些提要格式? Atom 1.0 中的 和 RSS 2.0 中的 。 msdn.microsoft.com/en-us/library/… 你的方法的优点是它不需要任何网络请求来确定它是否有效。但缺点是,Argotic 支持更多的提要类型,但 System.ServiceModel.Syndication 不支持。 @AkiraYamamoto 使用 SyndicationFeed.Load() 的一个问题是它经常会在“有效”rss 和 atom 提要上遇到 dtd 错误。问题是根据规范,提要可能是“无效的”,但根据使用它们的应用程序是有效的,因此 SyndicationFeed.Load() 消除了一堆好的提要。【参考方案2】:

您可以检查内容类型。它必须是text/xml。请参阅this question 以查找内容类型。

您可以使用此代码:

var request = HttpWebRequest.Create("http://www.google.com") as HttpWebRequest;
if (request != null)

    var response = request.GetResponse() as HttpWebResponse;

    string contentType = "";

    if (response != null)
        contentType = response.ContentType;

感谢the question的回答

更新

要检查它是否是提要地址,您可以使用W3C Feed Validation 服务。

更新2

正如 BurundukXP 所说,它有一个 SOAP API。要使用它,您可以阅读this question 的答案。

【讨论】:

每个 XML 都不是 Feed。另请阅读我对其他答案的评论。 @ahmadalishafiee - 你的核心陈述:“它必须是文本/xml”是不正确的。首先,任何响应都可以指示任何内容类型,因此单独的结果是不权威的。此外,text/rss+xml 是 RSS 提要的有效内容类型。【参考方案3】:

您可以使用Feed Validation Service。它有SOAP API。

【讨论】:

谢谢。看来你的答案是最好的。但是你能解释更多关于 SOAP API 的内容吗?如何联系该 API?是否可以使用 GET 请求调用该 API? @MahdiGhiasi 查看这篇文章 - msdn.microsoft.com/en-us/library/ff512390.aspx 如果不清楚,我稍后会创建一个示例。 如果您创建一个示例会很好:) 谢谢 @MahdiGhiasi 好的。 9 到 10 小时后我就可以免费了。 此服务有一个限制:每秒 1 个请求。所以我不能从服务器端向这个服务发出请求。关于客户端,它也不允许 ajax 请求:***.com/questions/11997256/…,没有办法从客户端使用此服务吗?【参考方案4】:

如果您只想将其转换为有效的 RSS/ATOM,您可以使用http://feedcleaner.nick.pro/ 对其进行清理。或者,您可以fork the project。

【讨论】:

以上是关于检查 URL 是不是是有效的 Feed的主要内容,如果未能解决你的问题,请参考以下文章

如何检查url在lua中是不是有效?

检查字符串是不是为有效 URL 的最佳正则表达式是啥?

如何检查 URL 在 Android 中是不是有效

如何检查在 iOS 的 url 中发布的用户名和密码是不是有效

检查字符串是不是为有效 URL 的 RFC 兼容和工作正则表达式是啥

如何在 Swift 中检查 URL 的有效性?