基于HttpClient4.5实现网络爬虫
Posted xiaojimanman
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于HttpClient4.5实现网络爬虫相关的知识,希望对你有一定的参考价值。
转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/53178307
http://www.llwjy.com/blogdetail/22e71755d13e76b8c10d357c0119c1c5.html
个人博客站已经上线了,网址 www.llwjy.com ~欢迎各位吐槽~
-------------------------------------------------------------------------------------------------
在开始之前先打一个小小的广告,自己创建一个QQ群:321903218,点击链接加入群【Lucene案例开发】,主要用于交流如何使用Lucene来创建站内搜索后台,同时还会不定期的在群内开相关的公开课,感兴趣的童鞋可以加入交流。
写在开始之前
这里做一个简短的说明,之前在博客《基于HttpClient实现网络爬虫~以百度新闻为例》介绍了如何基于HttpClient3.0来模拟浏览器请求,但从4.0版本之后,Apache就对这个包做了很大的改动,这里就针对目前比较新的版本4.5再来介绍下如何模拟浏览器的请求。在这里就不再介绍如何分析网页,如何确定请求的类型,就直接介绍如何来模拟浏览器的请求。
获取HttpClient
在4.5版本中,获取HttpClient实例和之前还是有很大区别的,这里引用了一个PoolingHttpClientConnectionManager类,我们就通过这个类来介绍如何来创建HttpClient。这个类是Http链接管理类,因此在整个工程中我们将其定义为静态变量。
private static PoolingHttpClientConnectionManager cm;
在静态方法中对其实现初始化的操作。
static
ConnectionSocketFactory plainsf = PlainConnectionSocketFactory.getSocketFactory();
LayeredConnectionSocketFactory sslsf = SSLConnectionSocketFactory.getSocketFactory();
Registry<ConnectionSocketFactory> registry = RegistryBuilder.<ConnectionSocketFactory>create()
.register("http", plainsf)
.register("https", sslsf)
.build();
cm = new PoolingHttpClientConnectionManager(registry);
//最大连接数
cm.setMaxTotal(maxTotal);
//每个路由基础的连接
cm.setDefaultMaxPerRoute(defaultMaxPerRoute);
//上面两句中的变量可以通过类的属性来确定
这样就完成了PoolingHttpClientConnectionManager类的实例的初始化,下面就通过cm来获取HttpClient。
private HttpClient getHttpClient()
return HttpClients.custom().setConnectionManager(cm).build();
这里就很简单的通过一个语句就可以获取HttpClient,这里就有一个疑问了,在3.0中,我们设置了HttpClient的链接超时时间以及数据的读取时间,这里怎么没有设置呢?
请求时间设置
在4.5中要通过RequestConfig来设置请求相关的一些参数,如下:
private RequestConfig getRequestConfig()
return RequestConfig.custom()
.setConnectTimeout(connectTimeout)
.setSocketTimeout(readTimeout)
.build();
这里只设置了前面提到的两个时间,RequestConfig中还有另外一个时间参数,感兴趣的自己可以研究下。
GetMethod
在3.0中,通过GetMethod来模拟get请求,在4.5中要通过HttpGet来模拟,对于请求头和参数也不能像之前一样直接放到一个Map中,这里将其拆成两个Map,一个记录请求的头信息,比如UA、cookies、Referer等,另一个记录请求的参数。
/**
* @param url
* @param params
* @param charset 参数编码方式
* @param headers
* @return
* @Date:2016-11-15
* @Author:lulei
* @Description: 创建get请求
*/
private HttpGet createGetMethod(String url, Map<String, String> params, String charset, Map<String, String> headers)
HttpGet method = new HttpGet(url);
method.setConfig(getRequestConfig());
if (params != null)
List<NameValuePair> paramList = new ArrayList<NameValuePair>();
Iterator<Entry<String, String>> iter = params.entrySet().iterator();
while (iter.hasNext())
Entry<String, String> entry = iter.next();
String key = entry.getKey();
String value = entry.getValue();
paramList.add(new BasicNameValuePair(key, value));
try
String paramStr = EntityUtils.toString(new UrlEncodedFormEntity(paramList, charset));
StringBuffer sb = new StringBuffer();
sb.append(url);
if (url.indexOf("?") > 0)
sb.append("&");
else
sb.append("?");
sb.append(paramStr);
method.setURI(new URI(sb.toString()));
catch (Exception e)
e.printStackTrace();
if (headers != null)
Iterator<Entry<String, String>> iter = headers.entrySet().iterator();
while (iter.hasNext())
Entry<String, String> entry = iter.next();
String key = entry.getKey();
String value = entry.getValue();
method.setHeader(key, value);
return method;
由于网站开发者对URL参数的编码方式不同,因此这里提供了一个参数来指定参数的编码方式,对照之前3.0的代码,相信这里很容易理解。
PostMethod
3.0中的get请求是GetMethod,对应4.5中的是HttpGet,同样3.0中的post请求是PostMethod,对应4.5中的是HttpPost,对于post的请求的创建和get类似,下面直接给出代码。
/**
* @param url
* @param params
* @param charset 参数编码方式
* @param headers
* @return
* @Date:2016-11-15
* @Author:lulei
* @Description: 创建post请求
*/
private HttpPost createPostMethod(String url, Map<String, String> params, String charset, Map<String, String> headers)
HttpPost method = new HttpPost(url);
method.setConfig(getRequestConfig());
if (params != null)
List<NameValuePair> paramList = new ArrayList<NameValuePair>();
Iterator<Entry<String, String>> iter = params.entrySet().iterator();
while (iter.hasNext())
Entry<String, String> entry = iter.next();
String key = entry.getKey();
String value = entry.getValue();
paramList.add(new BasicNameValuePair(key, value));
try
method.setEntity(new UrlEncodedFormEntity(paramList, charset));
catch (Exception e)
e.printStackTrace();
if (headers != null)
Iterator<Entry<String, String>> iter = headers.entrySet().iterator();
while (iter.hasNext())
Entry<String, String> entry = iter.next();
String key = entry.getKey();
String value = entry.getValue();
method.setHeader(key, value);
return method;
和get请求的区别主要就在请求参数的部分,这两部分的异同可以自己慢慢对比。
执行请求,获取返回值
和3.0一样,我们创建了Method、HttpClient,下一步就是请求资源,获取返回值,这里和之前3.0的代码几乎差不多,先看代码后分析:
private boolean execute(HttpUriRequest request)
int n = maxConnectTimes;
while (n > 0)
try
HttpClient httpClient = getHttpClient();
HttpResponse response = httpClient.execute(request);
responseHeaders = response.getAllHeaders();
HttpEntity entity = response.getEntity();
InputStream inputStream = entity.getContent();
BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(inputStream, charsetName));
StringBuffer stringBuffer = new StringBuffer();
String lineString = null;
while ((lineString = bufferedReader.readLine()) != null)
stringBuffer.append(lineString);
stringBuffer.append("\\n");
pageSourceCode = stringBuffer.toString();
InputStream in =new ByteArrayInputStream(pageSourceCode.getBytes(charsetName));
String charset = CharsetUtil.getStreamCharset(in, charsetName);
if (!charsetName.toLowerCase().equals(charset.toLowerCase()))
pageSourceCode = new String(pageSourceCode.getBytes(charsetName), charset);
bufferedReader.close();
inputStream.close();
return true;
catch (Exception e)
e.printStackTrace();
n--;
return false;
这里还像之前一样最多请求N次,3.0中我们通过method.getResponseBodyAsStream()来获取服务器返回的流,4.5中我们通过httpClient.execute(request).getEntity().getContent()来获取服务器返回的流,下面对于检测流编码就和之前的一样,这里就不再赘述。
提供子类或其他可以访问的方法
看到这里,细心的你也许已经发现了,上面介绍的方法都是private,因此我们需要提供一些外部可以访问的方法,这里我就先提供三个方法,具体如下:
/**
* @param url
* @param params
* @param getPost
* @param charset 参数编码方式
* @param headers
* @return
* @Date:2016-11-15
* @Author:lulei
* @Description: 访问url
*/
public boolean execute(String url, Map<String, String> params, String getPost, String charset, Map<String, String> headers)
if (getPost == null)
return false;
getPost = getPost.toLowerCase();
if ("get".equals(getPost))
return executeByGet(url, params, charset, headers);
else if ("post".equals(getPost))
return executeByPost(url, params, charset, headers);
return false;
/**
* @param url
* @param params
* @param charset 参数编码方式
* @param headers
* @return
* @Date:2016-11-15
* @Author:lulei
* @Description: post请求
*/
public boolean executeByPost(String url, Map<String, String> params, String charset, Map<String, String> headers)
HttpPost method = createPostMethod(url, params, charset, headers);
return execute(method);
/**
* @param url
* @param params
* @param charset 参数编码方式
* @param headers
* @return
* @Date:2016-11-15
* @Author:lulei
* @Description: get请求
*/
public boolean executeByGet(String url, Map<String, String> params, String charset, Map<String, String> headers)
HttpGet method = createGetMethod(url, params, charset, headers);
return execute(method);
这里就不提供整体的源代码了,对于4.5的理解还是自己动手完成后理解的比较深刻,如有问题欢迎留言交流。
-------------------------------------------------------------------------------------------------
小福利
-------------------------------------------------------------------------------------------------
个人在极客学院上《Lucene案例开发》课程已经上线了,欢迎大家吐槽~
以上是关于基于HttpClient4.5实现网络爬虫的主要内容,如果未能解决你的问题,请参考以下文章
基于java的网络爬虫框架(实现京东数据的爬取,并将插入数据库)