基于HttpClient4.5实现网络爬虫

Posted 2022-11-25 xiaojimanman

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了基于HttpClient4.5实现网络爬虫相关的知识，希望对你有一定的参考价值。

转载请注明出处：http://blog.csdn.net/xiaojimanman/article/details/53178307

http://www.llwjy.com/blogdetail/22e71755d13e76b8c10d357c0119c1c5.html

个人博客站已经上线了，网址 www.llwjy.com ~欢迎各位吐槽~

-------------------------------------------------------------------------------------------------

在开始之前先打一个小小的广告，自己创建一个QQ群：321903218，点击链接加入群【Lucene案例开发】，主要用于交流如何使用Lucene来创建站内搜索后台，同时还会不定期的在群内开相关的公开课，感兴趣的童鞋可以加入交流。

写在开始之前

这里做一个简短的说明，之前在博客《基于HttpClient实现网络爬虫~以百度新闻为例》介绍了如何基于HttpClient3.0来模拟浏览器请求，但从4.0版本之后，Apache就对这个包做了很大的改动，这里就针对目前比较新的版本4.5再来介绍下如何模拟浏览器的请求。在这里就不再介绍如何分析网页，如何确定请求的类型，就直接介绍如何来模拟浏览器的请求。

获取HttpClient

在4.5版本中，获取HttpClient实例和之前还是有很大区别的，这里引用了一个PoolingHttpClientConnectionManager类，我们就通过这个类来介绍如何来创建HttpClient。这个类是Http链接管理类，因此在整个工程中我们将其定义为静态变量。

private static PoolingHttpClientConnectionManager cm;

在静态方法中对其实现初始化的操作。

static 
	ConnectionSocketFactory plainsf = PlainConnectionSocketFactory.getSocketFactory();
	LayeredConnectionSocketFactory sslsf = SSLConnectionSocketFactory.getSocketFactory();
	Registry<ConnectionSocketFactory> registry = RegistryBuilder.<ConnectionSocketFactory>create()
	        .register("http", plainsf)
	        .register("https", sslsf)
	        .build();
	cm = new PoolingHttpClientConnectionManager(registry);
	//最大连接数
	cm.setMaxTotal(maxTotal);
	//每个路由基础的连接
	cm.setDefaultMaxPerRoute(defaultMaxPerRoute);
	//上面两句中的变量可以通过类的属性来确定

这样就完成了PoolingHttpClientConnectionManager类的实例的初始化，下面就通过cm来获取HttpClient。

private HttpClient getHttpClient() 
	return HttpClients.custom().setConnectionManager(cm).build();

这里就很简单的通过一个语句就可以获取HttpClient，这里就有一个疑问了，在3.0中，我们设置了HttpClient的链接超时时间以及数据的读取时间，这里怎么没有设置呢？

请求时间设置

在4.5中要通过RequestConfig来设置请求相关的一些参数，如下：

private RequestConfig getRequestConfig() 
	return RequestConfig.custom()
			.setConnectTimeout(connectTimeout)
			.setSocketTimeout(readTimeout)
			.build();

这里只设置了前面提到的两个时间，RequestConfig中还有另外一个时间参数，感兴趣的自己可以研究下。

GetMethod

在3.0中，通过GetMethod来模拟get请求，在4.5中要通过HttpGet来模拟，对于请求头和参数也不能像之前一样直接放到一个Map中，这里将其拆成两个Map，一个记录请求的头信息，比如UA、cookies、Referer等，另一个记录请求的参数。

/**
 * @param url
 * @param params
 * @param charset 参数编码方式
 * @param headers
 * @return
 * @Date:2016-11-15  
 * @Author:lulei  
 * @Description: 创建get请求
 */
private HttpGet createGetMethod(String url, Map<String, String> params, String charset, Map<String, String> headers) 
	HttpGet method = new HttpGet(url);
	method.setConfig(getRequestConfig());
	if (params != null) 
		List<NameValuePair> paramList = new ArrayList<NameValuePair>();
		Iterator<Entry<String, String>> iter = params.entrySet().iterator();
		while (iter.hasNext()) 
			Entry<String, String> entry = iter.next();
			String key = entry.getKey();
			String value = entry.getValue();
			paramList.add(new BasicNameValuePair(key, value));
		
		try 
			String paramStr = EntityUtils.toString(new UrlEncodedFormEntity(paramList, charset)); 
			StringBuffer sb = new StringBuffer();
			sb.append(url);
			if (url.indexOf("?") > 0) 
				sb.append("&");
			 else 
				sb.append("?");
			
			sb.append(paramStr);
			method.setURI(new URI(sb.toString()));
		 catch (Exception e) 
			e.printStackTrace();
		
	
	if (headers != null) 
		Iterator<Entry<String, String>> iter = headers.entrySet().iterator();
		while (iter.hasNext()) 
			Entry<String, String> entry = iter.next();
			String key = entry.getKey();
			String value = entry.getValue();
			method.setHeader(key, value);
		
	
	return method;

由于网站开发者对URL参数的编码方式不同，因此这里提供了一个参数来指定参数的编码方式，对照之前3.0的代码，相信这里很容易理解。

PostMethod
3.0中的get请求是GetMethod，对应4.5中的是HttpGet，同样3.0中的post请求是PostMethod，对应4.5中的是HttpPost，对于post的请求的创建和get类似，下面直接给出代码。

/**
 * @param url
 * @param params
 * @param charset 参数编码方式
 * @param headers
 * @return
 * @Date:2016-11-15  
 * @Author:lulei  
 * @Description: 创建post请求
 */
private HttpPost createPostMethod(String url, Map<String, String> params, String charset, Map<String, String> headers) 
	HttpPost method = new HttpPost(url);
	method.setConfig(getRequestConfig());
	if (params != null) 
		List<NameValuePair> paramList = new ArrayList<NameValuePair>();
		Iterator<Entry<String, String>> iter = params.entrySet().iterator();
		while (iter.hasNext()) 
			Entry<String, String> entry = iter.next();
			String key = entry.getKey();
			String value = entry.getValue();
			paramList.add(new BasicNameValuePair(key, value));
		
		try 
			method.setEntity(new UrlEncodedFormEntity(paramList, charset));
		 catch (Exception e) 
			e.printStackTrace();
		
	
	if (headers != null) 
		Iterator<Entry<String, String>> iter = headers.entrySet().iterator();
		while (iter.hasNext()) 
			Entry<String, String> entry = iter.next();
			String key = entry.getKey();
			String value = entry.getValue();
			method.setHeader(key, value);
		
	
	return method;

和get请求的区别主要就在请求参数的部分，这两部分的异同可以自己慢慢对比。

执行请求，获取返回值

和3.0一样，我们创建了Method、HttpClient，下一步就是请求资源，获取返回值，这里和之前3.0的代码几乎差不多，先看代码后分析：

private boolean execute(HttpUriRequest request) 
	int n = maxConnectTimes;
	while (n > 0) 
		try 
			HttpClient httpClient = getHttpClient();
			HttpResponse response = httpClient.execute(request);
			responseHeaders = response.getAllHeaders();
			 HttpEntity entity = response.getEntity();
			 InputStream inputStream = entity.getContent();
			 BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(inputStream, charsetName));
			 StringBuffer stringBuffer = new StringBuffer();
			 String lineString = null;
			 while ((lineString = bufferedReader.readLine()) != null)
				 stringBuffer.append(lineString);
				 stringBuffer.append("\\n");
			 
			 pageSourceCode = stringBuffer.toString();
			 InputStream in =new  ByteArrayInputStream(pageSourceCode.getBytes(charsetName));
			 String charset = CharsetUtil.getStreamCharset(in, charsetName);
			 if (!charsetName.toLowerCase().equals(charset.toLowerCase())) 
				 pageSourceCode = new String(pageSourceCode.getBytes(charsetName), charset);
			 
			 bufferedReader.close();
			 inputStream.close();
			 return true;
		 catch (Exception e) 
			e.printStackTrace();
			n--;
		 
	
	return false;

这里还像之前一样最多请求N次，3.0中我们通过method.getResponseBodyAsStream()来获取服务器返回的流，4.5中我们通过httpClient.execute(request).getEntity().getContent()来获取服务器返回的流，下面对于检测流编码就和之前的一样，这里就不再赘述。

提供子类或其他可以访问的方法

看到这里，细心的你也许已经发现了，上面介绍的方法都是private，因此我们需要提供一些外部可以访问的方法，这里我就先提供三个方法，具体如下：

/**
 * @param url
 * @param params
 * @param getPost
 * @param charset 参数编码方式
 * @param headers
 * @return
 * @Date:2016-11-15  
 * @Author:lulei  
 * @Description: 访问url
 */
public boolean execute(String url, Map<String, String> params, String getPost, String charset, Map<String, String> headers) 
	if (getPost == null) 
		return false;
	
	getPost = getPost.toLowerCase();
	if ("get".equals(getPost)) 
		return executeByGet(url, params, charset, headers);
	 else if ("post".equals(getPost)) 
		return executeByPost(url, params, charset, headers);
	
	return false;


/**
 * @param url
 * @param params
 * @param charset 参数编码方式
 * @param headers
 * @return
 * @Date:2016-11-15  
 * @Author:lulei  
 * @Description: post请求
 */
public boolean executeByPost(String url, Map<String, String> params, String charset, Map<String, String> headers) 
	HttpPost method = createPostMethod(url, params, charset, headers);
	return execute(method);


/**
 * @param url
 * @param params
 * @param charset 参数编码方式
 * @param headers
 * @return
 * @Date:2016-11-15  
 * @Author:lulei  
 * @Description: get请求
 */
public boolean executeByGet(String url, Map<String, String> params, String charset, Map<String, String> headers) 
	HttpGet method = createGetMethod(url, params, charset, headers);
	return execute(method);

这里就不提供整体的源代码了，对于4.5的理解还是自己动手完成后理解的比较深刻，如有问题欢迎留言交流。

-------------------------------------------------------------------------------------------------
小福利
-------------------------------------------------------------------------------------------------
个人在极客学院上《Lucene案例开发》课程已经上线了，欢迎大家吐槽~

以上是关于基于HttpClient4.5实现网络爬虫的主要内容，如果未能解决你的问题，请参考以下文章