Apache HTTPClient 抛出 java.net.SocketException:许多域的连接重置
Posted
技术标签:
【中文标题】Apache HTTPClient 抛出 java.net.SocketException:许多域的连接重置【英文标题】:Apache HTTPClient throws java.net.SocketException: Connection reset for many domains 【发布时间】:2011-03-12 04:32:43 【问题描述】:我正在创建一个(行为良好的)网络蜘蛛,我注意到一些服务器导致 Apache HttpClient 给我一个 SocketException - 特别是:
java.net.SocketException: Connection reset
导致这种情况的代码是:
// Execute the request
HttpResponse response;
try
response = httpclient.execute(httpget); //httpclient is of type HttpClient
catch (NullPointerException e)
return;//deep down in apache http sometimes throws a null pointer...
对于大多数服务器来说,这很好。但是对于其他人,它会立即抛出一个 SocketException。
导致立即 SocketException 的站点示例:http://www.bhphotovideo.com/
效果很好(大多数网站也是如此):http://www.google.com/
现在,如您所见,www.bhphotovideo.com 可以在网络浏览器中正常加载。当我不使用 Apache 的 HTTP 客户端时,它也可以正常加载。 (这样的代码:)
HttpURLConnection c = (HttpURLConnection)url.openConnection();
BufferedInputStream in = new BufferedInputStream(c.getInputStream());
Reader r = new InputStreamReader(in);
int i;
while ((i = r.read()) != -1)
source.append((char) i);
那么,我为什么不直接使用这段代码呢?我需要使用 Apache 的 HTTP 客户端中的一些关键功能。
有谁知道是什么原因导致某些服务器导致此异常?
研究至今:
问题出现在我的本地 Mac 开发机器和 AWS EC2 实例上,因此它不是本地防火墙。
似乎错误不是由远程机器引起的,因为异常没有说“by peer”
此堆栈溢出似乎与 java.net.SocketException: Connection reset 相关,但答案并未说明为什么仅从 Apache HTTP 客户端而不是其他方法会发生这种情况。
额外问题:我正在使用这个系统进行大量的爬行。除了 Apache HTTP 客户端之外,通常还有更好的 Java 类吗?我发现了许多问题(例如我必须在上面的代码中捕获的 NullPointerException)。似乎 HTTPClient 对服务器通信非常挑剔——对于一个不能在服务器不运行时中断的爬虫来说,比我想要的更挑剔。
谢谢大家!
解决方案
老实说,我没有完美的解决方案,但它确实有效,所以对我来说已经足够了。
正如下面的 oleg 所指出的,Bixo 创建了一个爬虫,可以自定义 HttpClient 以对服务器更加宽容。为了“解决”这个问题而不是修复它,我在这里使用了 Bixo 提供的 SimpleHttpFetcher: (链接已删除 - 所以认为我是垃圾邮件发送者,所以你必须自己用谷歌搜索)
SimpleHttpFetcher fetch = new SimpleHttpFetcher(new UserAgent("botname","contact@yourcompany.com","ENTER URL"));
try
FetchedResult result = fetch.fetch("ENTER URL");
System.out.println(new String(result.getContent()));
catch (BaseFetchException e)
e.printStackTrace();
这个解决方案的缺点是 Bixo 有很多依赖项——所以这对每个人来说可能不是一个好的解决方法。但是,您始终可以通过他们对 DefaultHttpClient 的使用来了解他们如何实例化它以使其工作。我决定使用整个课程,因为它为我处理了一些事情,例如自动重定向跟踪(并报告最终目标网址)很有帮助。
感谢大家的帮助。
编辑:TinyBixo
大家好。所以,我喜欢 Bixo 的工作方式,但不喜欢它有这么多依赖项(包括所有 Hadoop)。因此,我创建了一个大大简化的 Bixo,没有所有依赖项。如果您遇到上述问题,我建议您使用它(如果您想更新它,请随时提出拉取请求!)
这里有:https://github.com/juliuss/TinyBixo
【问题讨论】:
你是如何实例化 HttpClient 的? 如果它只是偶尔发生,可能是您需要在完成后关闭响应以确保返回所有资源。这可能会泄漏连接并最终导致像您遇到的问题。 【参考方案1】:首先,回答你的问题:
连接重置是由服务器端的问题引起的。服务器很可能无法解析请求或无法处理请求并因此断开连接而没有返回有效响应。 HttpClient 生成的 HTTP 请求中可能存在导致服务器端逻辑失败的内容,这可能是由于服务器端错误。仅仅因为错误消息没有说“通过对等方”并不意味着连接重置发生在客户端。
几点说明:
(1) 一些流行的网络爬虫,例如 bixo http://openbixo.org/ 使用 HttpClient 没有大问题,但其中大部分都必须调整 HttpClient 行为以使其对常见的 HTTP 协议违规行为更加宽容。默认情况下,HttpClient 对 HTTP 协议的合规性非常严格。
(2) 为什么您没有向 HttpClient 项目报告 NPE 问题或您遇到的任何其他问题?
【讨论】:
嗨 - 感谢您将我指向 Bixo。我在主要问题区域添加了我是如何解决这个问题的。至于不报告 NPE——你是对的,下次我捕获堆栈跟踪时会这样做!【参考方案2】:These two settings 有时会有所帮助:
client.getParams().setParameter("http.socket.timeout", new Integer(0));
client.getParams().setParameter("http.connection.stalecheck", new Boolean(true));
第一个设置套接字超时为无限。
【讨论】:
不是将套接字超时设置为无限是卡住线程的方法吗?不确定这是否可取。 我不鼓励将“http.socket.timeout”设置为无限。这肯定会为您的系统设置可避免的故障(尤其是当外部系统没有响应时)【参考方案3】:尝试使用wireshark 获取网络跟踪,并使用HTTPClient 的log4j 日志记录来增强它。这应该显示连接被重置的原因
【讨论】:
以上是关于Apache HTTPClient 抛出 java.net.SocketException:许多域的连接重置的主要内容,如果未能解决你的问题,请参考以下文章
HTTPClient-java.net.SocketException:未实现未连接的套接字抛出