在 C# 中使用 TcpClient 的 HTTP 客户端真的很奇怪

Posted

技术标签:

【中文标题】在 C# 中使用 TcpClient 的 HTTP 客户端真的很奇怪【英文标题】:Really weird HTTP client using TcpClient in C# 【发布时间】:2009-09-09 16:16:55 【问题描述】:

我正在实现一个简单的 HTTP 客户端,它只连接到 Web 服务器并获取其默认主页。在这里,它工作得很好:

using System;
using System.Net.Sockets;

namespace ConsoleApplication1

    class Program
    
        static void Main(string[] args)
        
            TcpClient tc = new TcpClient();
            tc.Connect("www.google.com", 80);

            using (NetworkStream ns = tc.GetStream())
            
                System.IO.StreamWriter sw = new System.IO.StreamWriter(ns);
                System.IO.StreamReader sr = new System.IO.StreamReader(ns);

                string req = "";
                req += "GET / HTTP/1.0\r\n";
                req += "Host: www.google.com\r\n";
                req += "\r\n";

                sw.Write(req);
                sw.Flush();

                Console.WriteLine("[reading...]");
                Console.WriteLine(sr.ReadToEnd());
            
            tc.Close();
            Console.WriteLine("[done!]");
            Console.ReadKey();
        
    


当我从上面的代码中删除以下行时,程序会阻塞在 sr.ReadToEnd 上。

req += "Host: www.google.com\r\n";

我什至将 sr.ReadToEnd 替换为 sr.Read,但它无法读取任何内容。我用 Wireshark 看看发生了什么:

Screenshot of captured packets using Wireshark http://www.imagechicken.com/uploads/1252514718052893500.jpg

如您所见,在我的 GET 请求之后,Google 没有响应并且请求被一次又一次地重新传输。看来我们必须在 HTTP 请求中指定 Host 部分。奇怪的部分是我们不这样做。我使用 telnet 发送此请求并得到 Google 的响应。我还抓到​​了telnet发送的请求,和我的请求一模一样。

我尝试了许多其他网站(例如雅虎、微软),但结果都是一样的。

那么,telnet 中的延迟是否会导致网络服务器的行为有所不同(因为在 telnet 中,我们实际上是 键入 个字符,而不是在 1 个数据包中将它们一起发送)。


另一个奇怪的问题是当我将 HTTP/1.0 更改为 HTTP/1.1 时,程序总是阻塞在 sr.ReadToEnd 行。我猜那是因为网络服务器没有关闭连接。

一种解决方案是使用 Read(或 ReadLine)和 ns.DataAvailable 来读取响应。但我不能确定我是否已阅读所有回复。如何读取响应并确保 HTTP/1.1 请求的响应中没有更多字节?


注意: 正如 W3 所说,

the Host request-header field MUST accompany all HTTP/1.1 requests

(我是为我的 HTTP/1.1 请求做的)。但是对于 HTTP/1.0,我还没有看到这样的东西。使用 telnet 发送没有 Host 标头的请求也可以正常工作。


更新:

Push 标志已在 TCP 段中设置为 1。我也尝试过 netsh winsock reset 来重置我的 TCP/IP 堆栈。测试计算机上没有防火墙或防病毒软件。数据包实际上是发送的,因为安装在另一台计算机上的 Wireshark 可以捕获它。

我也尝试了其他一些请求。例如,

string req = "";
req += "GET / HTTP/1.0\r\n";
req += "s df slkjfd sdf/ s/fd \\sdf/\\\\dsfdsf \r\n";
req += "qwretyuiopasdfghjkl\r\n";
req += "Host: www.google.com\r\n";
req += "\r\n";

在所有类型的请求中,如果我省略 Host: 部分,网络服务器不会响应,如果有 Host: 部分,即使是无效的请求(就像上面的请求一样)将被响应(通过 400:HTTP 错误请求)。

nos 说他的机器上不需要 Host: 部分,这使情况更加奇怪。

【问题讨论】:

我不知道这是否是问题所在,但是您不应该在 HTTP 响应中使用 content-length 来确定您应该读取多少字节,然后从响应的正文? @Aziz。也许这是一个很好的解决方案,而不是使用 ReadToEnd。但在问题的第一部分,我没有从服务器收到任何东西(甚至一个字节)。 该代码在有或没有 Host: 标头的情况下都适用。 GET 请求的 TCP 段是否设置了 PUSH 位? - 并不是说​​你可以做很多事情,但如果没有设置它可以解释重传 @nos - 谢谢。我添加了一些关于你的提示的细节 @Aziz - 要记住的是,并非所有 HTTP 1.1 中的 HTTP 响应都使用“Content-Length”标头。一些响应使用“Transfer-Encoding: chunked”标头,这需要完全不同的阅读模型。 【参考方案1】:

这与使用 TcpClient 有关。

我知道这篇文章已经过时了。我提供此信息以防其他人遇到此问题。将此答案视为对上述所有答案的补充。

某些服务器需要 HTTP 主机标头,因为它们被设置为每个 IP 地址托管多个域。作为一般规则,始终发送 Host 标头。一个好的服务器会回复“未找到”。有些服务器根本不会回复。

当从流中读取数据的调用阻塞时,通常是因为服务器正在等待发送更多数据。这通常是 HTTP 1.1 规范没有被严格遵循的情况。为了证明这一点,请尝试省略最终的 CR LF 序列,然后从流中读取数据 - 对 read 的调用将一直等到客户端超时或服务器通过终止连接而放弃等待。

我希望这能带来一点启发......

【讨论】:

【参考方案2】:

我发现了一个问题:

我如何阅读响应并确保我阅读了 HTTP/1.1 请求中的所有响应?

这是我可以回答的问题!

您在这里使用的所有方法都是同步的,这很容易使用,但甚至有点不可靠。一旦你有一个相当大的响应,你就会发现问题并且只得到其中的一部分。

要最稳健地实现 TcpClient 连接,您应该使用所有异步方法和回调。相关方法如下:

1) 创建与 TcpClient.BeginConnect(...) 的连接,回调调用 TcpClient.EndConnect(...) 2) 使用 TcpClient.GetStream().BeginWrite(...) 发送请求,回调调用 TcpClient.GetStream().EndWrite(...) 3) 使用 TcpClient.GetStream().BeginRead(...) 接收响应,回调调用 TcpClient.GetStream().EndRead(...),将结果附加到 StringBuilder 缓冲区,然后调用 TcpClient.GetStream( ).BeginRead(...) 再次(使用相同的回调),直到收到 0 字节的响应。

最后一步(重复调用 BeginRead 直到读取 0 个字节)解决了获取响应、整个响应以及仅响应响应的问题。所以请帮助我们 TCP。

希望有帮助!

【讨论】:

【参考方案3】:

我建议您针对安装在您自己的本地计算机上的标准、经过良好测试、广泛接受的 Web 服务器(例如 Apache HTTPD 或 IIS)尝试您的代码。

将您的网络服务器配置为在没有 Host 标头的情况下进行响应(例如 IIS 中的默认网络应用程序),看看是否一切顺利。

归根结底,您无法真正了解幕后发生的事情,因为您无法控制 google、yahoo 等网站/网络应用程序。 例如,网站管理员可以配置网站,以便使用 HTTP 协议对端口 80 上的传入 TCP 连接没有默认应用程序。 但他/她可能想在使用 TELNET 协议通过 TCP 端口 23 连接时配置默认的 telnet 应用程序。

【讨论】:

【参考方案4】:

我相信 ReadToEnd 会等到连接关闭。但是它似乎没有关闭。你应该继续阅读它。然后它将按您的预期工作。

//Console.WriteLine(sr.ReadToEnd());
var bufout = new byte[1024];
int readlen=0;
do

    readlen = ns.Read(bufout, 0, bufout.Length);
    Console.Write(System.Text.Encoding.UTF8.GetString(bufout, 0, readlen));
 while (readlen != 0);

【讨论】:

【参考方案5】:

尝试直接使用 System.Net.WebClient 而不是 System.Net.Sockets.TcpClient:

using System;
using System.Net;

namespace ConsoleApplication1

    class Program
    
        static void Main(string[] args)
        
            WebClient wc = new WebClient();
            Console.WriteLine("[requesting...]");
            Console.WriteLine(wc.DownloadString("http://www.google.com"));
            Console.WriteLine("[done!]");
            Console.ReadKey();
        
    

【讨论】:

@Remy Lebeau - 谢谢,但我必须使用 TcpClient,因为我想在较低级别执行此操作。 @Remy Lebeau - 所以这不是问题的答案,只是分散其他人的注意力,因为他们认为“他有答案”:/ @isaac - 如果你必须使用 TcpClient,那么你真的需要阅读ietf.org/rfc/rfc2616.txt 上的实际 HTTP 规范。您的原始阅读代码在许多情况下都不起作用,因为 ReadToEnd() 是错误的处理方式,就像 Aziz 之前所说的那样。

以上是关于在 C# 中使用 TcpClient 的 HTTP 客户端真的很奇怪的主要内容,如果未能解决你的问题,请参考以下文章

C# TcpClient的Connect超时处理(Timeout)

C#使用TcpListener和TcpClient实现简单通信

(16)C# TcpClient异步连接和接收数据的小例子

C# TcpClient 不会注册断开连接

C# - 执行 SslStream.Read 后如何知道 TcpClient 中剩余多少字节

c# TcpClient简易聊天工具