如何从c#获取网站标题

Posted

技术标签:

【中文标题】如何从c#获取网站标题【英文标题】:How to get website title from c# 【发布时间】:2021-12-11 06:40:08 【问题描述】:

我正在重新访问我的一些旧代码,并且偶然发现了一种根据其 url 获取网站标题的方法。这并不是您所说的稳定方法,因为它通常无法产生结果,有时甚至会产生不正确的结果。此外,有时它无法显示标题中的某些字符,因为它们是另一种编码。

有人对这个旧版本有改进建议吗?

public static string SuggestTitle(string url, int timeout)

    WebResponse response = null;
    string line = string.Empty;

    try
    
        WebRequest request = WebRequest.Create(url);
        request.Timeout = timeout;

        response = request.GetResponse();
        Stream streamReceive = response.GetResponseStream();
        Encoding encoding = System.Text.Encoding.GetEncoding("utf-8");
        StreamReader streamRead = new System.IO.StreamReader(streamReceive, encoding);

        while(streamRead.EndOfStream != true)
        
            line = streamRead.ReadLine();
            if (line.Contains("<title>"))
            
                line = line.Split(new char[]  '<', '>' )[2];
                break;
            
        
    
    catch (Exception)  
    finally
    
        if (response != null)
        
            response.Close();
        
    

    return line;

最后一点 - 我也希望代码运行得更快,因为它会阻塞直到页面被获取,所以如果我只能获取站点标题而不是整个页面,那就太好了。

【问题讨论】:

【参考方案1】:

更简单的获取内容的方法:

WebClient x = new WebClient();
string source = x.DownloadString("http://www.singingeels.com/");

更简单、更可靠的获取标题的方法:

string title = Regex.Match(source, @"\<title\b[^>]*\>\s*(?<Title>[\s\S]*?)\</title\>",
    RegexOptions.IgnoreCase).Groups["Title"].Value;

【讨论】:

使用WebClient时有什么办法可以设置超时时间吗? 我认为唯一要添加的是你必须在模式中添加@(用于转义的东西),也就是说:@"\]*\> \s*(?[\s\S]*?)\\>" 为了向 WebClient 类添加超时(和其他内容),本指南提供了一个很好的解决方案:codegator.com/mcook/archive/2006/07/17/…【参考方案2】:

也许有了这个建议,一个新世界为你打开了大门 我也有这个问题,来到这个

从http://html-agility-pack.net/?z=codeplex下载“Html Agility Pack”

或者去nuget:https://www.nuget.org/packages/HtmlAgilityPack/ 并添加此参考。

在代码文件中添加如下使用:

using HtmlAgilityPack;

在您的方法中编写以下代码:

var webGet = new HtmlWeb();
var document = webGet.Load(url);    
var title = document.DocumentNode.SelectSingleNode("html/head/title").InnerText;

来源:

https://codeshare.co.uk/blog/how-to-scrape-meta-data-from-a-url-using-htmlagilitypack-in-c/ HtmlAgilityPack obtain Title and meta

【讨论】:

【参考方案3】:

为了实现这一点,您需要做几件事。

使您的应用线程化,这样您就可以同时处理多个请求并最大限度地增加正在发出的 HTTP 请求的数量。 在异步请求期间,仅下载您想要拉回的数据量,您可以在数据返回时对其进行解析 大概是想用正则表达式拉出标题名

我之前使用 SEO 机器人完成了这项工作,我一次能够处理近 10,000 个请求。您只需要确保每个 Web 请求都可以自包含在一个线程中。

【讨论】:

如果您想一次处理 10,000 个请求,您肯定希望为每个请求提供自己的线程! (所涉及的堆栈会像疯了一样吃掉你的记忆。)使用异步 API 将并行化操作而不每个请求都花费你一个线程。 这是一个有争议的问题,因为我一次只需要执行一个请求。对速度的需求是因为用户在等待回复。 @Jon,就像我说的那样,我的机器是一个分析的 SEO 机器人,显然你想限制每次分析的请求数量,以保持内存合理。然而,10,000 是一个压力测试场景。异步是关于如何下载标头的建议。 @Morten,我只是在说你给我​​的非常基本的细节。您说您希望它运行得更快,并且您只想下载标头异步请求是限制下载大小的最佳方法,因为您可以在找到答案后停止该过程。 @Jon,您正在使用一个非常明确的声明,因为您不希望每个请求都有一个线程,这可能是真的,但您忘记了每个请求的分析。如果分析处理器是单线程的,将会建立一个可怕的队列。

以上是关于如何从c#获取网站标题的主要内容,如果未能解决你的问题,请参考以下文章

C#如何从网站中只获取一个字符串[重复]

在 C# 中读取时,如何从 C++ 中获取 \0

从具有 C# 加载页面的网站获取 HTML 代码

如何从 C# 中的 TCP 数据包中获取 Http 正文消息

从浏览器获取 URL 到 C# 应用程序

从网站获取 HTML ID 以填写信息并按下 c# 或 vb.net 中的按钮